juooo1117

[Module 4] Supervised Learning: Advanced Classification 본문

Artificial Intelligence/LG Aimers: AI전문가과정

[Module 4] Supervised Learning: Advanced Classification

Hyo__ni 2024. 1. 11. 11:40

Part 5. Advanced Classification Model

Support Vector Machine

margin: hyper plane을 결정하는 SVM의 핵심이다.

Choose the linear separator (hyperplane) with the largest margin on either side.

  - Maximum margin hyperplane with support vectors

  -  Robust to outliers

 

hyper plane 으로 부터 가장 가까운 positive sample을 지나가는 점선과, negative sample을 지나가는 점선 사이의 서로간의 위치가 동일한 hyper plane → 최대 margin을 확보하는 곳

hyper plane과 margin

Support vector

an instance with the minimum margin, which will be the most sensible data points to affect the performance.

 → positive sample, negative sample 중 hyper plane 에 가장 가까운 샘플(margin이 가장 적은!!)은 성능을 좌지우지하는 가장 민감한 point 들이다. 따라서, 이러한 support vector들 끼리의 거리를 가장 최대화하는 것이 최적화 전략이다. (*maximum margin 설정)

 

Margin의 계산방법: Twice the distance form the hyperplane to the nearest instance on either side

'w' is orthogonal to the hyper plane

 

 

Optimization 

Optimal weight 'w' and bias 'b'

  -  Classifies points correctly as well as achieves the largest possible margin.

  -  Hard margin SVM : assumes linear separability (hyper plane에 가장 가까운 각 영역의 샘플과 hyper plane 사이에는 아무것도 없다고 가정하는 것)

  -  Soft margin SVM : extends to non-separable cases (어느 정도의 error; 샘플과 hyper plane 사이에 값이 존재함. 는 가능하다고 가정하는 것)

  -  Nonlinear transform & kernel trick

 

Kernel Trick

linearly separable 하지 않은 data sample들이 있다고 할 때, 차수를 높여서 linearly separable하게 만드는 과정을 의미

  -  Data is not linearly separable in the input space (왼쪽)

  -  Data is linearly separable in the feature space obtained by a kernel (오른쪽)

kernel trick

Artificial neural network (ANN)

non-linear 한 구조를 가지는 classification model 이다.

 

Activation Functions : 앞서 취득한 linear combination 으로써의 score 값을 입력으로 삼아서 sigmoid 와 같은 함수를 통해 non-linear한 관계로 mapping을 해주는 역할을 수행 → 결국 model이 non-linear하게 동작할 수 있도록 만들어 준다.

*sigmoid neurons - give a real-valued output that is a smooth and bounded function of their total input.

 

하지만, sigmoid function은 neural network를 깊이있게 쌓아갈 때는 효과적인 학습에 도움이 되지 않는다.

따라서 최근에는 ReLU(*함수를 미분하더라도 gradient term이 1로 나타남)와 같은 activation function을 가장 많이 사용함

 

ANN의 layer를 깊게 쌓으면 DNN(deep neural network) : 각 layer에 따라서 학습을 하게 되는 feature의 형태가 달라진다.

layer가 깊게 쌓여가면서, signal space에서의 복잡한 신호들의 패턴을 정확하게 분류할 수 있게 된다.

 

Multilayer perceptron

neural network를 여러개의 층으로 쌓은 것을 multilayer perceptron model 이라고 할 수 있다.

선형 모델로는 풀 수 없었던 XOR 문제를 잘 풀 수 있게 되었다. ( → can solve XOR Problem)

multi layer가 올라감에 따라서 점점 복잡한 형태의 hyper plane 을 만들 수 있다.

multi layer