-
728x90
<ECC 47기 인공지능 스터디>
1주차: 파이썬으로 배우는 인공지능 1장, 2장
출처: https://s0ye0ve.tistory.com/26 [STUDY_MEMO:티스토리]
2장. 지도 학습을 이용한 분류와 회귀
- 다룰 내용
- 지도 학습과 비지도 학습의 차이점
- 분류의 개념
- 데이터를 전처리하기 위한 다양한 기법
- 레이블 인코딩
- 로지스틱 회귀 분류기 구축 방법
- 나이브 베이즈 분류기
- 오차 행렬
- SVM의 개념과 이를 이용한 분류기 구축 방법
- 선형 회귀 분석과 다항 회귀 분석
- 단일 변수와 다중 변수 데이터에 대한 선형 회귀 분석 방법
- 서포트 벡터 회귀 분류기를 이용한 주택 가격 예측 방법
지도 학습 및 비지도 학습
- 머신 러닝
- 지도 학습
- 비지도 학습
- 지도 학습(supervised learning)
- 레이블이 달린 데이터로 학습 모델을 만듦
- 예시: 나이와 학력, 거주지와 같은 다양한 매개변수를 기반으로 개인의 소득을 예측하는 시스템을 구축하려면, 여러 사람에 대한 정보를 모으고 각 항목마다 레이블을 달아서 데이터베이스를 구축한다.
- 여러 가지 매개변수와 소득의 관계가 정의된 데이터베이스를 학습 알고리즘에 전달하면, 특정한 사람에 대한 매개변수가 주어졌을 때 그 사람의 소득을 계산하는 방법을 학습한다.
- 비지도 학습(unsupervised learning)
- 레이블이 달리지 않은 데이터로 학습 모델을 만듦
- 데이터의 내용만 보고 의미 있는 정보를 추출해야 한다.
- 그룹을 나눌 때 활용할 수 있는데, 그룹을 나누는 기준이 명확하지 않아 어렵다.
- 비지도 학습 방식의 알고리즘은 가능한 최선의 방법을 동원해 데이터를 나눠야 한다.
분류
- 데이터를 지정한 수만큼의 클래스(범주)로 나누는 기법
- 데이터를 가장 효과적이면서 효율적으로 활용하도록 일정한 수의 그룹으로 데이터를 분류한다.
- 주어진 데이터 항목이 속하는 클래스를 결정하는 문제를 다룰 때 활용한다.
- 샘플(학습용 데이터)의 수는 다양한 상황을 반영할 수 있을 정도로 충분해야 한다.
- 샘플이 부족하면 알고리즘이 학습 데이터에 필요 이상으로 최적화되는 overfitting(과적합) 현상이 발생한다.
Overfitting(과적합): 분류 기준이 학습 데이터에 너무 치우쳐서 학습 데이터에 없는 다른 값에 대해서는 제대로 분류할 수 없는 현상
데이터 전처리
- 머신 러닝 알고리즘을 학습하기 전에 먼저 raw 데이터의 포맷을 머신 러닝 알고리즘이 처리할 수 있는 형태로 변환하는 전처리(preprocessing) 작업이 필요하다.
전처리 기법
- 이진화
- 평균 제거
- 크기 조정
- 정규화
이진화
- 숫자를 불리언 수(이진수)로 변환하는 기법
평균 제거
- 특징 벡터(feature vector)에 담긴 값들이 한쪽으로 치우치지 않게 만들 때 사용
- 특히 특징 벡터의 값들이 0을 중심으로 분포하게 만들 때 많이 활용한다.
크기 조정
- 특징 벡터의 각 요소에 대한 값의 범위는 일정하지 않을 수 있는데, 머신 러닝 알고리즘을 학습시키려면 모든 특징을 동일 선상에서 비교할 수 있도록 각각의 특징에 대한 값의 범위를 일정한 기준으로 조정하는 크기 조정(scaling) 과정을 거쳐야 한다.
- 측정 단위차로 인해 어떤 특징이 비정상적으로 크거나 작게 나타나면 안되기 때문이다.
정규화
- 특징 벡터의 값을 일정한 기준으로 측정하려면 정규화 과정을 거친다.
- L1 정규화(최소 절대 편차)
- 각 행의 절댓값의 합이 1이 되도록 조정
- L2 정규화(최소 제곱)
- 제곱의 합이 1이 되도록 조정
- 일반적으로 L2 정규화보다 L1 정규화 기법이 데이터의 이상치(outlier)에 영향을 덜 받아 좀 더 안정적이다.
- 반면 이상치가 문제 해결에 중요한 역할을 한다면 L2 정규화를 사용하는 것이 낫다.
레이블 인코딩
- 문자로 표현된 레이블을 숫자 형태로 바꾸는 과정
- 사이킷런에서 제공하는 머신 러닝 함수는 숫자로 된 레이블만 처리하기 때문에 문자로 된 레이블을 레이블 인코더를 거쳐 숫자로 변환해줘야 한다.
728x90'ECC 인공지능 스터디' 카테고리의 다른 글
[인공지능/AI] 2장. 오차 행렬, 서포트 벡터 머신(SVM), 회귀 분석 (1) 2024.03.23 [인공지능/AI] 2장. 로지스틱 회귀 분류기, 나이브 베이즈 분류기 (0) 2024.03.23 [인공지능/AI] 1장. 범용 문제 해결기(GPS), 머신 러닝 모델 종류 (1) 2024.03.23 [인공지능/AI] 1장. 튜링 테스트, 이성적인 에이전트 개념 (0) 2024.03.23 [인공지능/AI] 1장. 인공지능 개요 (0) 2024.03.23 - 다룰 내용