일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 경사하강법
- Transfer Learning
- Generative model
- SOMs
- BERT
- Attention
- AI 윤리
- MLOps
- LSTM
- Support Vector Machine
- NMF
- RNN
- gaze estimation
- textmining
- ResNet
- cross domain
- nlp
- Binary classification
- tensorflow
- NER
- 군집화
- stemming
- 자기조직화지도
- Ann
- VGGNet
- Logistic Regression
- Gradient Descent
- Clustering
- Python
- TFX
- Today
- Total
juooo1117
[Module 4] Supervised Learning: Advanced Classification 본문
[Module 4] Supervised Learning: Advanced Classification
Hyo__ni 2024. 1. 11. 11:40Part 5. Advanced Classification Model
Support Vector Machine
margin: hyper plane을 결정하는 SVM의 핵심이다.
Choose the linear separator (hyperplane) with the largest margin on either side.
- Maximum margin hyperplane with support vectors
- Robust to outliers
hyper plane 으로 부터 가장 가까운 positive sample을 지나가는 점선과, negative sample을 지나가는 점선 사이의 서로간의 위치가 동일한 hyper plane → 최대 margin을 확보하는 곳
Support vector
an instance with the minimum margin, which will be the most sensible data points to affect the performance.
→ positive sample, negative sample 중 hyper plane 에 가장 가까운 샘플(margin이 가장 적은!!)은 성능을 좌지우지하는 가장 민감한 point 들이다. 따라서, 이러한 support vector들 끼리의 거리를 가장 최대화하는 것이 최적화 전략이다. (*maximum margin 설정)
Margin의 계산방법: Twice the distance form the hyperplane to the nearest instance on either side
'w' is orthogonal to the hyper plane
Optimization
Optimal weight 'w' and bias 'b'
- Classifies points correctly as well as achieves the largest possible margin.
- Hard margin SVM : assumes linear separability (hyper plane에 가장 가까운 각 영역의 샘플과 hyper plane 사이에는 아무것도 없다고 가정하는 것)
- Soft margin SVM : extends to non-separable cases (어느 정도의 error; 샘플과 hyper plane 사이에 값이 존재함. 는 가능하다고 가정하는 것)
- Nonlinear transform & kernel trick
Kernel Trick
linearly separable 하지 않은 data sample들이 있다고 할 때, 차수를 높여서 linearly separable하게 만드는 과정을 의미
- Data is not linearly separable in the input space (왼쪽)
- Data is linearly separable in the feature space obtained by a kernel (오른쪽)
Artificial neural network (ANN)
non-linear 한 구조를 가지는 classification model 이다.
Activation Functions : 앞서 취득한 linear combination 으로써의 score 값을 입력으로 삼아서 sigmoid 와 같은 함수를 통해 non-linear한 관계로 mapping을 해주는 역할을 수행 → 결국 model이 non-linear하게 동작할 수 있도록 만들어 준다.
*sigmoid neurons - give a real-valued output that is a smooth and bounded function of their total input.
하지만, sigmoid function은 neural network를 깊이있게 쌓아갈 때는 효과적인 학습에 도움이 되지 않는다.
따라서 최근에는 ReLU(*함수를 미분하더라도 gradient term이 1로 나타남)와 같은 activation function을 가장 많이 사용함
ANN의 layer를 깊게 쌓으면 → DNN(deep neural network) : 각 layer에 따라서 학습을 하게 되는 feature의 형태가 달라진다.
layer가 깊게 쌓여가면서, signal space에서의 복잡한 신호들의 패턴을 정확하게 분류할 수 있게 된다.
Multilayer perceptron
neural network를 여러개의 층으로 쌓은 것을 multilayer perceptron model 이라고 할 수 있다.
선형 모델로는 풀 수 없었던 XOR 문제를 잘 풀 수 있게 되었다. ( → can solve XOR Problem)
multi layer가 올라감에 따라서 점점 복잡한 형태의 hyper plane 을 만들 수 있다.
'Artificial Intelligence > LG Aimers: AI전문가과정' 카테고리의 다른 글
[Module 6] Deep Learning: Deep Neural Networks (0) | 2024.01.12 |
---|---|
[Module 4] Supervised Learning: Ensemble (0) | 2024.01.11 |
[Module 4] Supervised Learning: Linear Classification (0) | 2024.01.10 |
[Module 4] Supervised Learning: Gradient Descent (1) | 2024.01.10 |
[Module 4] Supervised Learning: Linear Regression Model (2) | 2024.01.09 |