flowchart LR

totalnode(목차)
node1(1.인공지능이 무엇인지?)
node1_1(1.1 AI vs ML vs DL)
node1_2(1.2 학습 방법 & 학습별 활용 예시)
totalnode-->node1
node1-->node1_1
node1-->node1_2

node2(2.인공지능 활용 분야)
node2_1(2.1 CV)
node2_2(2.2 NLP)
node2_3(2.3 추천시스템)
totalnode-->node2
node2-->node2_1
node2-->node2_2
node2-->node2_3

node3(3.인공지능 기초 원리)
node3_1(3.1 미정)
totalnode-->node3
node3-->node3_1

node4(4.인공지능 개발 과정)
node4_1(4.1 개발 과정별 세부 설명)
node4_2(4.2 실제 데이터 사이언티스트들이 할애하는 시간 분배)
totalnode-->node4
node4-->node4_1
node4-->node4_2

node5(5.인공지능 개발 유의사항)
node5_1(5.1 데이터 체크)
node5_2(5.2 모델 오버피팅 & 언더피팅 체크)
node5_3(5.3 그외 기타)
totalnode-->node5
node5-->node5_1
node5-->node5_2
node5-->node5_3

node6(6.Q & A)
totalnode-->node6

타임라인

  1. 인공지능이 무엇인지?

    image.png

    인공지능(Artificial Intelligence)

    인간의 인지, 추론, 학습의 사고과정에 필요한 능력을 컴퓨터 시스템을 통해 구현함으로써 문제를 해결할 수 있는 기술

    머신러닝(Machine Learning)

    컴퓨터가 수많은 데이터를 스스로 학습하고 알고리즘을 통해 학습의 결과를 도출하는 인공지능의 한 분야의 학습법

    딥러닝(Deep Learning)

    고도화된 신경망 알고리즘을 적용하여 보다 빠르고 인간과 유사하게 행동하는 컴퓨터 프로그램을 구현한 학습방법

    ML vs DL

    image.png

    데이터에 대한 특징 추출(Feature extraction)을 사람이 개입해서 조정한다면 머신러닝

    데이터에 대한 특징 추출(Feature extraction)도 딥러닝 알고리즘 신경망을 통해 조정한다면 딥러닝

    학습 방법 설명

    지도 학습 vs 비지도 학습 vs 강화 학습 설명

    image.png

    지도학습(Supervised Learning)

    비지도학습(Unsupervised Learning)

    강화학습(Reinforcement Learning)

각 학습별 활용 예시

image.png

아래 다양한 사례가 있지만 지도학습을 기준으로 분류 & 회귀 설명

  1. 무엇을 할 수 있는지?(활용 분야)

  2. 하나의 인공지능(AI)을 만들기 위한 과정?

    1. 문제 정의
      1. 만약 데이터에 맞는 태스크를 하고 싶다면 데이터를 먼저 분석
        1. 우선적으로 가지고 있는 데이터를 분석하고 무엇을 할 수 있는지 생각
      2. 태스크를 지정 후 데이터 수집
        1. 하고싶은 혹은 해야하는 태스크를 지정한 후 데이터 수집 진행
    2. 데이터 준비
      • 자연어면 텍스트 데이터
      • 이미지면 이미지 데이터
      • 예를 들어 텍스트를 통한 감성 분류 라면 감성에 대한 라벨링이 되어있는 데이터이며 이미지 분류라면 분류할 이미지에 대해서 각각 데이터를 균형있게 준비
    3. 데이터 전처리
      • 데이터에 불필요한 정보나 꼭 필요한 정보들에 대해서 정제
      • 데이터 이상치 등 파악
    4. 모델 선정 OR 개발
      • 모델 선정 : 기존의 모델을 파인튜닝하는 과정을 진행하려는 계획이면 사전학습 모델(백본 모델)을 선정해야함
        • 여기서 파인튜닝이란 사전에 대량의 데이터로 학습 해놓은 모델의 기본 가중치를 사용하여 학습하는 과정
      • 모델 개발 : 처음부터 레이어를 쌓아서 개발하는 과정
    5. 하이퍼 파라미터 선정
      • 파라미터 vs 하이퍼파라미터 설명
        • 파라미터 : 모델 내부에서 결정되는 변수이며 또한 그 값은 데이터로부터 결정됩니다.
        • 하이퍼 파라미터 : 유저가 모델을 잘 학습시키기 위해 적절한 값을 지정해야줘야함(답은 따로 없으며 경험적 요인이 큼)
      • 하이퍼 파라미터는 유저가 지정을 해줘야하는 부분!
        • 대표적으로는
          • 학습률(Learning rate)
          • 배치사이즈(Batch size) 등등
    6. 학습 & 검증
      • 정제한 데이터를 통해 학습과 검증을 반복하는 과정
        • 학습 : 모델이 제대로 학습을 하도록 도와주는 데이터
        • 검증 : 학습 데이터로 학습한 모델이 오버피팅 or 언더피팅이 일어나는지 확인하기 위해 검증을 하기위한 데이터
    7. 모델 평가
      • 각 모델은 쓰임새마다 평가하는 방법이 많으며 정량적 지표(수치적 지표)로 한계가 있는 태스크도 분명함
        • 분류, 회귀 등에서 사용하는 평가 지표가 다름
        • 요 근래에 생성형 태스크 등에서는 정량적 지표로 한계가 있는 경우 사람이 직접 평가하는 경우가 늘어남
    8. 평가 결과 확인 후 c-d 반복(또는 데이터 재정비)

    전체적인 프로세스 설명 후 각 과정에서 시간을 얼마나 많이 쓰는지 질문해보고 답을 들어보기

    아래는 데이터 사이언티스트들에게 자신들의 업무에서 시간을 가장 많이 소비하는 부분을 조사한 것

    Untitled

    데이터 과학자는 업무 시간의 60%를 데이터 정리 및 구성에 소비합니다. 데이터 집합 수집이 19%로 두 번째로 많았는데, 이는 데이터 과학자가 분석을 위해 데이터를 준비하고 관리하는 데 약 80%의 시간을 소비한다는 의미입니다.

    image.png

    데이터 과학자의 57%는 데이터 정리 및 정리를 업무 중 가장 즐겁지 않은 부분으로 꼽았으며, 19%는 데이터 집합 수집에 대해 이렇게 답했습니다.

    시간을 가장 쓰는 만큼 중요한 부분이 데이터이지만 가장 즐겁지 않은 부분도 데이터인 상황..!

  3. AI를 만들면서 유의할 점

Ref