링크 : https://brunch.co.kr/@harryban0917/219
- 앤드류 응(Andrew Ng) 스탠포트 대학교 겸임교수는 “좋은 데이터를 수집하고 가공하는 것이 인공지능을 만드는 과정의 80%를 차지하는데, 이는 데이터가 인공지능의 핵심적인 부분임을 의미한다.”라고 말했다.
- 그는 데이터 중심 인공지능(Data-centric AI) 개발의 중요성을 강조했고, 인공지능 개발자들이 코드 수정을 통한 모델 하이퍼파라미터 변경에 매몰되지 않고 좋은 데이터를 확보하고 유지하려는 노력을 해야 한다고 덧붙였다.

좋은 데이터의 조건

- 일관성
- 일관되게 정의(accuracy)되어야 한다. 여기서 일관적인 데이터는 표현 방식과 단위 등이 통일된 데이터를 뜩한다. 십만, 백만 등 숫자의 표현 단위와 성격이 일관적으로 통일된 데이터 속에서만 의미 있는 인사이트를 도출해 낼 수 있다.
- 포괄성
- 모델 활용 시 예상 가능한 모든 경우를 포괄(coverage)해야한다.
- 포괄적인 데이터란 다양한 데이터를 통해 인공지능 모델이 예측(predict)하지 못하는 영역을 최소화하기 위한 것이다.
- 예를 들어 음성인식(speech recognition)에 사용되는 데이터셋의 경우 주기적으로 학습 데이터에 신조어, 유행어 등을 업데이트하여 데이터를 최신화하지 않으면 모델은 빠르게 변화하는 언어의 실체를 반영하지 못하게 될 것이다.
- 이처럼 인공지능 모델 운영 상황을 고려하여 수집 시나리오를 정의하고 다양한 데이터를 수집하여 커버리지를 넓힘으로써 포괄적인 데이터를 확보하는 것은 모델의 성능을 유지하는 데에 매우 중요하다.
- 피드백
- 생산 데이터로 부터 적절한 피드백(feedback)을 통해 개선되는 데이터이어야 한다.