[인공지능/AI] 2장. 지도 학습과 비지도 학습, 분류, 데이터 전처리

ECC 인공지능 스터디 2024-03-23

728x90

1주차: 파이썬으로 배우는 인공지능 1장, 2장

출처: https://s0ye0ve.tistory.com/26 [STUDY_MEMO:티스토리]

2장. 지도 학습을 이용한 분류와 회귀

다룰 내용
- 지도 학습과 비지도 학습의 차이점
- 분류의 개념
- 데이터를 전처리하기 위한 다양한 기법
- 레이블 인코딩
- 로지스틱 회귀 분류기 구축 방법
- 나이브 베이즈 분류기
- 오차 행렬
- SVM의 개념과 이를 이용한 분류기 구축 방법
- 선형 회귀 분석과 다항 회귀 분석
- 단일 변수와 다중 변수 데이터에 대한 선형 회귀 분석 방법
- 서포트 벡터 회귀 분류기를 이용한 주택 가격 예측 방법

지도 학습 및 비지도 학습

머신 러닝
- 지도 학습
- 비지도 학습
지도 학습(supervised learning)
- 레이블이 달린 데이터로 학습 모델을 만듦
- 예시: 나이와 학력, 거주지와 같은 다양한 매개변수를 기반으로 개인의 소득을 예측하는 시스템을 구축하려면, 여러 사람에 대한 정보를 모으고 각 항목마다 레이블을 달아서 데이터베이스를 구축한다.
- 여러 가지 매개변수와 소득의 관계가 정의된 데이터베이스를 학습 알고리즘에 전달하면, 특정한 사람에 대한 매개변수가 주어졌을 때 그 사람의 소득을 계산하는 방법을 학습한다.
비지도 학습(unsupervised learning)
- 레이블이 달리지 않은 데이터로 학습 모델을 만듦
- 데이터의 내용만 보고 의미 있는 정보를 추출해야 한다.
- 그룹을 나눌 때 활용할 수 있는데, 그룹을 나누는 기준이 명확하지 않아 어렵다.
- 비지도 학습 방식의 알고리즘은 가능한 최선의 방법을 동원해 데이터를 나눠야 한다.

데이터 전처리

머신 러닝 알고리즘을 학습하기 전에 먼저 raw 데이터의 포맷을 머신 러닝 알고리즘이 처리할 수 있는 형태로 변환하는 전처리(preprocessing) 작업이 필요하다.

전처리 기법

이진화
평균 제거
크기 조정
정규화

이진화

숫자를 불리언 수(이진수)로 변환하는 기법

평균 제거

특징 벡터(feature vector)에 담긴 값들이 한쪽으로 치우치지 않게 만들 때 사용
특히 특징 벡터의 값들이 0을 중심으로 분포하게 만들 때 많이 활용한다.

크기 조정

특징 벡터의 각 요소에 대한 값의 범위는 일정하지 않을 수 있는데, 머신 러닝 알고리즘을 학습시키려면 모든 특징을 동일 선상에서 비교할 수 있도록 각각의 특징에 대한 값의 범위를 일정한 기준으로 조정하는 크기 조정(scaling) 과정을 거쳐야 한다.
측정 단위차로 인해 어떤 특징이 비정상적으로 크거나 작게 나타나면 안되기 때문이다.

정규화

특징 벡터의 값을 일정한 기준으로 측정하려면 정규화 과정을 거친다.
L1 정규화(최소 절대 편차)
- 각 행의 절댓값의 합이 1이 되도록 조정
L2 정규화(최소 제곱)
- 제곱의 합이 1이 되도록 조정
일반적으로 L2 정규화보다 L1 정규화 기법이 데이터의 이상치(outlier)에 영향을 덜 받아 좀 더 안정적이다.
반면 이상치가 문제 해결에 중요한 역할을 한다면 L2 정규화를 사용하는 것이 낫다.

레이블 인코딩

문자로 표현된 레이블을 숫자 형태로 바꾸는 과정
사이킷런에서 제공하는 머신 러닝 함수는 숫자로 된 레이블만 처리하기 때문에 문자로 된 레이블을 레이블 인코더를 거쳐 숫자로 변환해줘야 한다.

728x90

저작자표시 비영리 변경금지

'ECC 인공지능 스터디' 카테고리의 다른 글

[인공지능/AI] 2장. 오차 행렬, 서포트 벡터 머신(SVM), 회귀 분석 (1)	2024.03.23
[인공지능/AI] 2장. 로지스틱 회귀 분류기, 나이브 베이즈 분류기 (0)	2024.03.23
[인공지능/AI] 1장. 범용 문제 해결기(GPS), 머신 러닝 모델 종류 (1)	2024.03.23
[인공지능/AI] 1장. 튜링 테스트, 이성적인 에이전트 개념 (0)	2024.03.23
[인공지능/AI] 1장. 인공지능 개요 (0)	2024.03.23

ABOUT ME

STUDY_MEMO STUDY_MEMO

2장. 지도 학습을 이용한 분류와 회귀

지도 학습 및 비지도 학습

분류

데이터 전처리

전처리 기법

이진화

평균 제거

크기 조정

정규화

레이블 인코딩

'ECC 인공지능 스터디' 카테고리의 다른 글

티스토리툴바

ABOUT ME

2장. 지도 학습을 이용한 분류와 회귀

지도 학습 및 비지도 학습

분류

데이터 전처리

전처리 기법

이진화

평균 제거

크기 조정

정규화

레이블 인코딩

'ECC 인공지능 스터디' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바