한국어 전처리

<aside> ✏️ 실습 : https://colab.research.google.com/drive/1FfhWsP9izQcuVl06P30r5cCxELA1ciVE?usp=sharing#scrollTo=8JXT1xXdOaMh

</aside>

데이터 사이언티스트들이 가장 시간을 할애하는 부분 : 전처리

Untitled

텍스트 전처리란?

텍스트 전처리는 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 처리하는 작업입니다.
요리를 할 때 재료를 제대로 손질하지 않으면, 요리가 엉망이 되는 것처럼 텍스트에 제대로 전처리를 하지 않으면 모델링에 있어서 좋지 못한 성능이 나올 확률이 높아집니다.

토큰화 전까지의 텍스트 전처리

특수문자등의 제거
- html 태그 제거
- "@%*=()/+ 와 같은 punctuation 제거
오타 체크
띄어쓰기 체크
불용어 제거

특수문자등의 제거

가장 기초적인 전처리이며 각 텍스트마다 다른 특수문자들을 가지고 있다
해당 부분에서는 정규표현식에 대해서 지식을 가지고 있으면 편하다.(정규표현식 보기)

punct = "/-'?!.,#$%\\'()*+-/:;<=>@[\\\\]^_`{|}~" + '""“”’' + '∞θ÷α•à−β∅³π‘₹´°£€\\×™√²—–&'
punct_mapping = {"‘": "'", "₹": "e", "´": "'", "°": "", "€": "e", "™": "tm", "√": " sqrt ", "×": "x", "²": "2", "—": "-", "–": "-", "’": "'", "_": "-", "`": "'", '“': '"', '”': '"', '“': '"', "£": "e", '∞': 'infinity', 'θ': 'theta', '÷': '/', 'α': 'alpha', '•': '.', 'à': 'a', '−': '-', 'β': 'beta', '∅': '', '³': '3', 'π': 'pi', }

def clean_punc(text, punct, mapping):
    for p in mapping:
        text = text.replace(p, mapping[p])
    
    for p in punct:
        text = text.replace(p, f' {p} ')
    
    specials = {'\\u200b': ' ', '…': ' ... ', '\\ufeff': '', 'करना': '', 'है': ''}
    for s in specials:
        text = text.replace(s, specials[s])
    
    return text.strip()

import re

def clean_text(texts):
    corpus = []
    for i in range(0, len(texts)):
				# 구두점 제거
        review = re.sub(r'[@%\\\\*=()/~#&\\+á?\\xc3\\xa1\\-\\|\\:\\;\\!\\-\\,\\_\\~\\$\\'\\"]', '',str(texts[i]))
        review = review.lower()                   # 영어 -> 소문자
        review = re.sub(r'\\s+', ' ', review)      # "  " -> " "
        review = re.sub(r'<[^>]+>','',review)     # remove Html tags
        review = re.sub(r"^\\s+", '', review)      # 시작하는 공백 제거
        review = re.sub(r'\\s+$', '', review)      # 끝나는 공백 제거
        corpus.append(review)
    return corpus

오타 체크

해당 부분에서는 정말 완벽하다고 생각하는 라이브러리나 방법이 없는 것 같습니다.
정말 완벽하게 작업을 진행하려면 사람이 직접하는 경우가 정말 완벽.. 하지만 그러한 인력투입은 너무 힘든 결정

데이터 사이언티스트들이 가장 시간을 할애하는 부분 : 전처리

텍스트 전처리란?

토큰화 전까지의 텍스트 전처리

특수문자등의 제거

오타 체크

띄어쓰기 체크