기본 개념

크롤링(crawling) : 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위

  1. Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
  2. HTML 페이지를 가져와서, HTML/CSS등을 파싱하고, 필요한 데이터만 추출하는 기법
  3. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
  4. Selenium등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법

웹 크롤링 vs 웹 스크래핑

Untitled

크롤링의 합법과 불법의 기준

“정보통신망법 제48조 정보통신망 침해행위 금지”

누구든지 정당한 접근권한 없이 또는 허용된 접근권한을 넘어 정보통신망에 침입하여서는 아니된다

불법이 되는 기준

  1. 수집한 데이터를 상업적으로 이용하는 경우
  2. 웹 크롤링을 통해 상대 서버에 문제를 일으킨 경우

robots.txt를 통해 접근 범위 확인