2023년 8월 11일 수업
레이블이 있는 데이터 세트를 가지고 알고리즘으로 데이터를 구별하는 판별식
→ 새로운 데이터에 대한 결과값 산출 = 예측(회귀), 분류
분류(Classification): 학습 데이터의 레이블 세트 중 어느 그룹인가?
→ 붓꽃의 종류: 세토사, 버시컬러, 버지니카
→ 우편물 자동분류를 위한 필기체 인식, 도난 신용카드, 악성 이메일, 해킹 분석
Instance-based learning or memory-based learning : lazy learning
가장 가까이 있는 학습 데이터 n개가 속한 그룹으로 결정
→ 레이블된 학습 데이터 특성을 정량화하여 좌표 공간에 표현하는 작업
→ 새로운 데이터 중심 n(홀수)개 데이터 발견까지 가상의 원 확장, 가장 많은 그룹으로 결정
k = 1 → 노이즈 너무 민감 - overfitting
k = 99 → 의사결정 경계 둔감, 변별력 없음 - underfitting
학습할 때, 테스트 / 검증 에러율