ABOUT ME

-

Today
-
Yesterday
-
Total
-
s0ye0ve
  • [인공지능/AI] 2장. 지도 학습과 비지도 학습, 분류, 데이터 전처리
    ECC 인공지능 스터디 2024-03-23
    728x90

    <ECC 47기 인공지능 스터디>

    1주차: 파이썬으로 배우는 인공지능 1장, 2장

    출처: https://s0ye0ve.tistory.com/26 [STUDY_MEMO:티스토리]

    2장. 지도 학습을 이용한 분류와 회귀

    • 다룰 내용
      • 지도 학습과 비지도 학습의 차이점
      • 분류의 개념
      • 데이터를 전처리하기 위한 다양한 기법
      • 레이블 인코딩
      • 로지스틱 회귀 분류기 구축 방법
      • 나이브 베이즈 분류기
      • 오차 행렬
      • SVM의 개념과 이를 이용한 분류기 구축 방법
      • 선형 회귀 분석과 다항 회귀 분석
      • 단일 변수와 다중 변수 데이터에 대한 선형 회귀 분석 방법
      • 서포트 벡터 회귀 분류기를 이용한 주택 가격 예측 방법

    지도 학습 및 비지도 학습

    • 머신 러닝
      • 지도 학습
      • 비지도 학습
    • 지도 학습(supervised learning)
      • 레이블이 달린 데이터로 학습 모델을 만듦
      • 예시: 나이와 학력, 거주지와 같은 다양한 매개변수를 기반으로 개인의 소득을 예측하는 시스템을 구축하려면, 여러 사람에 대한 정보를 모으고 각 항목마다 레이블을 달아서 데이터베이스를 구축한다.
      • 여러 가지 매개변수와 소득의 관계가 정의된 데이터베이스를 학습 알고리즘에 전달하면, 특정한 사람에 대한 매개변수가 주어졌을 때 그 사람의 소득을 계산하는 방법을 학습한다.
    • 비지도 학습(unsupervised learning)
      • 레이블이 달리지 않은 데이터로 학습 모델을 만듦
      • 데이터의 내용만 보고 의미 있는 정보를 추출해야 한다.
      • 그룹을 나눌 때 활용할 수 있는데, 그룹을 나누는 기준이 명확하지 않아 어렵다.
      • 비지도 학습 방식의 알고리즘은 가능한 최선의 방법을 동원해 데이터를 나눠야 한다.

    분류

    • 데이터를 지정한 수만큼의 클래스(범주)로 나누는 기법
    • 데이터를 가장 효과적이면서 효율적으로 활용하도록 일정한 수의 그룹으로 데이터를 분류한다.
    • 주어진 데이터 항목이 속하는 클래스를 결정하는 문제를 다룰 때 활용한다.
    • 샘플(학습용 데이터)의 수는 다양한 상황을 반영할 수 있을 정도로 충분해야 한다.
    • 샘플이 부족하면 알고리즘이 학습 데이터에 필요 이상으로 최적화되는 overfitting(과적합) 현상이 발생한다.

    Overfitting(과적합): 분류 기준이 학습 데이터에 너무 치우쳐서 학습 데이터에 없는 다른 값에 대해서는 제대로 분류할 수 없는 현상

    데이터 전처리

    • 머신 러닝 알고리즘을 학습하기 전에 먼저 raw 데이터의 포맷을 머신 러닝 알고리즘이 처리할 수 있는 형태로 변환하는 전처리(preprocessing) 작업이 필요하다.

    전처리 기법

    • 이진화
    • 평균 제거
    • 크기 조정
    • 정규화

    이진화

    • 숫자를 불리언 수(이진수)로 변환하는 기법

    평균 제거

    • 특징 벡터(feature vector)에 담긴 값들이 한쪽으로 치우치지 않게 만들 때 사용
    • 특히 특징 벡터의 값들이 0을 중심으로 분포하게 만들 때 많이 활용한다.

    크기 조정

    • 특징 벡터의 각 요소에 대한 값의 범위는 일정하지 않을 수 있는데, 머신 러닝 알고리즘을 학습시키려면 모든 특징을 동일 선상에서 비교할 수 있도록 각각의 특징에 대한 값의 범위를 일정한 기준으로 조정하는 크기 조정(scaling) 과정을 거쳐야 한다.
    • 측정 단위차로 인해 어떤 특징이 비정상적으로 크거나 작게 나타나면 안되기 때문이다.

    정규화

    • 특징 벡터의 값을 일정한 기준으로 측정하려면 정규화 과정을 거친다.
    • L1 정규화(최소 절대 편차)
      • 각 행의 절댓값의 합이 1이 되도록 조정
    • L2 정규화(최소 제곱)
      • 제곱의 합이 1이 되도록 조정
    • 일반적으로 L2 정규화보다 L1 정규화 기법이 데이터의 이상치(outlier)에 영향을 덜 받아 좀 더 안정적이다.
    • 반면 이상치가 문제 해결에 중요한 역할을 한다면 L2 정규화를 사용하는 것이 낫다.

    레이블 인코딩

    • 문자로 표현된 레이블을 숫자 형태로 바꾸는 과정
    • 사이킷런에서 제공하는 머신 러닝 함수는 숫자로 된 레이블만 처리하기 때문에 문자로 된 레이블을 레이블 인코더를 거쳐 숫자로 변환해줘야 한다.
    728x90

    댓글

Copyright 2020. s0ye0ve all rights reserved.

Designed by Tistory.