ECC 인공지능 스터디
[인공지능/AI] 2장. 오차 행렬, 서포트 벡터 머신(SVM), 회귀 분석
s0ye0ve
2024. 3. 23. 23:44
728x90
<ECC 47기 인공지능 스터디>
1주차: 파이썬으로 배우는 인공지능 1장, 2장
오차 행렬
- 분류기의 성능을 표현한 그림 또는 표
- 주로 실제 참(GT, ground truth)인 값이 주어진 테스트 데이터에서 구한다.
- 이 행렬을 통해 분류된 결과를 서로 비교해서 잘못 분류된 샘플의 개수를 파악한다.
- 측정 지표
- 참 양성: 예측 결과가 1이고, GT값도 1인 샘플
- 참 음성: 예측 결과가 0이고, GT값도 0인 샘플
- 거짓 양성: 예측 결과는 1이지만, GT 값은 0인 샘플 (1종 오류)
- 거짓 음성: 예측 결과는 0이지만, GT 값은 1인 샘플 (2종 오류)
⇒ 주어진 문제에 대해 거짓 양성이나 거짓 음성 비율을 최소화하도록 알고리즘을 최적화해야 한다.
서포트 벡터 머신(SVM)
- 클래스를 구분하는 경계선을 직선이 아닌 초평면으로 표현하는 방법
- 초평면: 직선을 N차원으로 표현한 것
- 이진 분류 문제에 SVM을 적용하면 학습 데이터를 두 클래스로 가장 잘 나눌 수 있는 초평면을 찾는다. ⇒ N개의 클래스로 분류하는 문제
- 데이터들과 거리가 가장 먼 초평면을 선택하여 분리한다.
- Support Vector: 데이터를 의미
- margin: 초평면과 가장 가까이 있는 데이터와의 거리
- maximum margin(최대 마진): 두 점선과 수직으로 떨어진 거리
- 마진을 최대로 만드는 직선을 계산하여 데이터를 분류하는 방법
회귀 분석
- 입력 변수와 출력 변수의 관계를 추정하는 기법
- 이 때, 출력 변수는 연속적인 실수 값이다. = 경우의 수가 무한하다.
- 분류 기법은 출력 클래스의 수가 일정하게 고정되어 있다.
- 입력 변수 중에서 일부만 변경할 때 출력 변수의 값이 어떻게 변하는지 파악할 수 있다.
- 주로 가격이나 경기, 변동성을 예측하는 데 많이 사용된다.
- 선형 회귀 분석: 입력과 출력의 관계가 선형이라고 가정한다.
- 다항 회귀 분석: 입력과 출력의 관계를 다항식으로 표현한다. (다차원 데이터)
- 선형 회귀 분석만으로 밝혀내기 힘든 경우 사용
- 선형 회귀보다 계산이 복잡하지만 정확도가 높다.
728x90