2023년 8월 11일 수업

분류와 군집

레이블이 있는 데이터 세트를 가지고 알고리즘으로 데이터를 구별하는 판별식

→ 새로운 데이터에 대한 결과값 산출 = 예측(회귀), 분류

분류(Classification): 학습 데이터의 레이블 세트 중 어느 그룹인가?

→ 붓꽃의 종류: 세토사, 버시컬러, 버지니카

→ 우편물 자동분류를 위한 필기체 인식, 도난 신용카드, 악성 이메일, 해킹 분석

Instance-based learning or memory-based learning : lazy learning

가장 가까이 있는 학습 데이터 n개가 속한 그룹으로 결정

→ 레이블된 학습 데이터 특성을 정량화하여 좌표 공간에 표현하는 작업

→ 새로운 데이터 중심 n(홀수)개 데이터 발견까지 가상의 원 확장, 가장 많은 그룹으로 결정

k = 1 → 노이즈 너무 민감 - overfitting

k = 99 → 의사결정 경계 둔감, 변별력 없음 - underfitting

학습할 때, 테스트 / 검증 에러율