[DL] 인공지능 기초 개념 및 원리

flowchart LR

totalnode(목차)
node1(1.인공지능이 무엇인지?)
node1_1(1.1 AI vs ML vs DL)
node1_2(1.2 학습 방법 & 학습별 활용 예시)
totalnode-->node1
node1-->node1_1
node1-->node1_2

node2(2.인공지능 활용 분야)
node2_1(2.1 CV)
node2_2(2.2 NLP)
node2_3(2.3 추천시스템)
totalnode-->node2
node2-->node2_1
node2-->node2_2
node2-->node2_3

node3(3.인공지능 기초 원리)
node3_1(3.1 미정)
totalnode-->node3
node3-->node3_1

node4(4.인공지능 개발 과정)
node4_1(4.1 개발 과정별 세부 설명)
node4_2(4.2 실제 데이터 사이언티스트들이 할애하는 시간 분배)
totalnode-->node4
node4-->node4_1
node4-->node4_2

node5(5.인공지능 개발 유의사항)
node5_1(5.1 데이터 체크)
node5_2(5.2 모델 오버피팅 & 언더피팅 체크)
node5_3(5.3 그외 기타)
totalnode-->node5
node5-->node5_1
node5-->node5_2
node5-->node5_3

node6(6.Q & A)
totalnode-->node6

타임라인

인공지능이 무엇인지?

인공지능(Artificial Intelligence)

인간의 인지, 추론, 학습의 사고과정에 필요한 능력을 컴퓨터 시스템을 통해 구현함으로써 문제를 해결할 수 있는 기술

머신러닝(Machine Learning)

컴퓨터가 수많은 데이터를 스스로 학습하고 알고리즘을 통해 학습의 결과를 도출하는 인공지능의 한 분야의 학습법

딥러닝(Deep Learning)

고도화된 신경망 알고리즘을 적용하여 보다 빠르고 인간과 유사하게 행동하는 컴퓨터 프로그램을 구현한 학습방법
- 인공지능이 가장 큰 개념으로 머신러닝과 딥러닝을 포함하는 개념이지만, 실제로 요새 '인공지능한다'하면 '딥러닝한다'와 거의 동일한 개념으로 사용될 정도로, 인공지능 연구에서 딥러닝이 차지하는 비중이 커짐
- 딥러닝이 아닌 머신러닝 분야에는 수학/통계기반의 머신러닝 기법이 있으며, 여전히 많이 사용됨
ML vs DL

데이터에 대한 특징 추출(Feature extraction)을 사람이 개입해서 조정한다면 머신러닝

데이터에 대한 특징 추출(Feature extraction)도 딥러닝 알고리즘 신경망을 통해 조정한다면 딥러닝

학습 방법 설명

지도 학습 vs 비지도 학습 vs 강화 학습 설명

지도학습(Supervised Learning)
- 모든 입력패턴에 대해 정확한 답을 가지고 신경망을 학습하는 방법.
- 입력이 주어짐에 따라 원하는 출력값이 활성화되도록 가중치를 조절
- 각 입력자료에 대해 원하는 목표 출력값을 대응시켜 학습자료 구성
비지도학습(Unsupervised Learning)
- 목표값없이 학습 데이터만 입력, 스스로 연결 가중치들을 학습(미리 결정된 해가 불필요)
- **주어진 입력패턴 자체를 기억시키거나 **, 유사한 패턴을 군집화 시키는데 사용
- **입력에 대한 정확한 답을 알 필요가 없으며 **, 입력 데이터에 내재된 구조나 그 사이의 관계를 파악하여 패턴들을 분류
강화학습(Reinforcement Learning)
- 데이터의 상태(State)을 인식하고 이에 반응한 행위(Action)에 대하여 환경으로부터 받는 포상(Reward)을 학습하여 행위에 대한 포상을 최적화하는 정책(Model)을 찾는 기계학습
- 반복적인 결정 및 착오와 경험에 기반하여 상태의 최적의 행동을 조금씩 학습하는 알고리즘

각 학습별 활용 예시

아래 다양한 사례가 있지만 지도학습을 기준으로 분류 & 회귀 설명

분류 : 유사한 특성을 가진 데이터들끼리 묶어서 나누는 것
- 이진 분류(Binary classification) : 두 가지를 구분할 수 있는 분류(데이터의 성질이 2가지 답으로 나타남)
  - EX) 병원에서 찍은 환자의 폐 CT 사진이 암인지 아닌지, 스팸 메일인지 아닌지 등
- 다중 분류( Multiclass classification) : 여러 개 중 하나 구별해 내는 분류 (데이터의 성질이 3가지 이상 답으로 나타난다)
  - EX) 새의 종류, 지폐의 종류 등
회귀 : 연속적인 값을 예측하는 것
- ex) 주식 예측, 성적 예측, 집값 예측, 물건 예측 등
- 단순 선형 회귀(Simple Linear regression) : 하나의 x값만으로도 y값을 설명할 수 있음
- 다중 선형 회귀(Multiple Linear regression) : y를 설명하는데, 여러 개의 x값이 필요할 때

무엇을 할 수 있는지?(활용 분야)
- 모든 비즈니스 영역에서 인공지능을 도입해서 업무 효율을 높이려고 하고 있고 특히 사람의 자연어처리 부분과 이미지처리에 대한 연구가 많이 되고 있음
- 사람이 자극을 수용할 수 있는 모든 감각과 행동 영역, 그리고 판단까지 기계가 수행하도록 연구 진행
  - 눈(시각), 입/귀(언어), 손/발(로봇, 제어) , 사고(판단)
하나의 인공지능(AI)을 만들기 위한 과정?
1. 문제 정의
  1. 만약 데이터에 맞는 태스크를 하고 싶다면 데이터를 먼저 분석
    1. 우선적으로 가지고 있는 데이터를 분석하고 무엇을 할 수 있는지 생각
  2. 태스크를 지정 후 데이터 수집
    1. 하고싶은 혹은 해야하는 태스크를 지정한 후 데이터 수집 진행
2. 데이터 준비
  - 자연어면 텍스트 데이터
  - 이미지면 이미지 데이터
  - 예를 들어 텍스트를 통한 감성 분류 라면 감성에 대한 라벨링이 되어있는 데이터이며 이미지 분류라면 분류할 이미지에 대해서 각각 데이터를 균형있게 준비
3. 데이터 전처리
  - 데이터에 불필요한 정보나 꼭 필요한 정보들에 대해서 정제
  - 데이터 이상치 등 파악
4. 모델 선정 OR 개발
  - 모델 선정 : 기존의 모델을 파인튜닝하는 과정을 진행하려는 계획이면 사전학습 모델(백본 모델)을 선정해야함
    - 여기서 파인튜닝이란 사전에 대량의 데이터로 학습 해놓은 모델의 기본 가중치를 사용하여 학습하는 과정
  - 모델 개발 : 처음부터 레이어를 쌓아서 개발하는 과정
5. 하이퍼 파라미터 선정
  - 파라미터 vs 하이퍼파라미터 설명
    - 파라미터 : 모델 내부에서 결정되는 변수이며 또한 그 값은 데이터로부터 결정됩니다.
    - 하이퍼 파라미터 : 유저가 모델을 잘 학습시키기 위해 적절한 값을 지정해야줘야함(답은 따로 없으며 경험적 요인이 큼)
  - 하이퍼 파라미터는 유저가 지정을 해줘야하는 부분!
    - 대표적으로는
      - 학습률(Learning rate)
      - 배치사이즈(Batch size) 등등
6. 학습 & 검증
  - 정제한 데이터를 통해 학습과 검증을 반복하는 과정
    - 학습 : 모델이 제대로 학습을 하도록 도와주는 데이터
    - 검증 : 학습 데이터로 학습한 모델이 오버피팅 or 언더피팅이 일어나는지 확인하기 위해 검증을 하기위한 데이터
7. 모델 평가
  - 각 모델은 쓰임새마다 평가하는 방법이 많으며 정량적 지표(수치적 지표)로 한계가 있는 태스크도 분명함
    - 분류, 회귀 등에서 사용하는 평가 지표가 다름
    - 요 근래에 생성형 태스크 등에서는 정량적 지표로 한계가 있는 경우 사람이 직접 평가하는 경우가 늘어남
8. 평가 결과 확인 후 c-d 반복(또는 데이터 재정비)
전체적인 프로세스 설명 후 각 과정에서 시간을 얼마나 많이 쓰는지 질문해보고 답을 들어보기

아래는 데이터 사이언티스트들에게 자신들의 업무에서 시간을 가장 많이 소비하는 부분을 조사한 것

데이터 과학자는 업무 시간의 60%를 데이터 정리 및 구성에 소비합니다. 데이터 집합 수집이 19%로 두 번째로 많았는데, 이는 데이터 과학자가 분석을 위해 데이터를 준비하고 관리하는 데 약 80%의 시간을 소비한다는 의미입니다.

데이터 과학자의 57%는 데이터 정리 및 정리를 업무 중 가장 즐겁지 않은 부분으로 꼽았으며, 19%는 데이터 집합 수집에 대해 이렇게 답했습니다.

시간을 가장 쓰는 만큼 중요한 부분이 데이터이지만 가장 즐겁지 않은 부분도 데이터인 상황..!
AI를 만들면서 유의할 점

인공지능(Artificial Intelligence)

머신러닝(Machine Learning)

딥러닝(Deep Learning)

학습 방법 설명

지도학습(Supervised Learning)

비지도학습(Unsupervised Learning)

강화학습(Reinforcement Learning)

각 학습별 활용 예시

Ref