학습개요
텍스트(text)는 숫자와 더불어 가장 대표적인 정보의 저장 단위이며, 월드와이드웹이 등장한 이후, 그 양은 현저하게 증가하여 빅데이터의 주요 부분을 이루고 있다. 이러한 텍스트 빅데이터로부터 그 구조와 의미를 찾는 인공지능을 이용한 자연어처리 서비스가 확산되고 있다.
텍스트 빅데이터 기반의 서비스로는 텍스트 요약, 텍스트의 분류, 감성 분석, 의미연결망 분석, 기계번역, 질의응답, 챗봇, 음성 인식 등이 있다. 이 장에서는 텍스트 빅데이터와 자연어처리 서비스를 살펴보고 자연어 처리관련 토큰화, 정규화, 형태소분석, 단어의 표현방법과 언어모형에 대해 살펴본다.
학습목표
- 텍스트 빅데이터에 대해 이해한다.
- 자연어 처리 기술의 활용에 대해 살펴본다.
- 텍스트 전처리에 대해 살펴본다.
- 언어모형에 대해 살펴본다.
연습문제
- 다음 중 자연어 처리로 할 수 있는 일과 관계가 없는 것은?
- 새로 발표된 정부의 부동산 정책에 대해 사람들이 소셜미디어에 올린 의견을 분석하였다.
- 카페에서 로봇에게 커피를 주문했다.
- 올해 주가를 분석하여 내년 전망을 예측했다.
- 뉴욕타임즈 영문 기사를 구글 트랜슬레이터로 번역하여 한글로 읽어보았다.
정답 : 3
- TF-IDF는 각 문서를 대표하는 중요한 단어를 찾는데 적합한 알고리즘이기 때문에 문서를 검색하는데 주로 사용된다.
O
X정답 : O - 아래 지문과 같이 단어사전이 구축되어 있을 때 제시된 단어의 원-핫 인코딩 행렬을 구하시오.
0 1 2 3 4 5 6 7 8 9 텍스트 처리 분석 문서 포함 단어 집합 사전 출연 필요 제시된 단어: 집합
정답 : [0, 0, 0, 0, 0, 0, 1, 0, 0, 0]
정리하기
- 텍스트(text)는 숫자와 더불어 가장 대표적인 정보의 저장 단위이며, 월드와이드웹이 등장한 이후, 그 양은 현저하게 증가하고 있다.
- 자연어처리(NLP)는 컴퓨터가 자연어의 의미를 분석할 수 있도록 처리하는 것을 말 하는데, 텍스트 요약, 텍스트의 분류, 감성 분석, 의미연결망 분석, 기계번역, 질의응답, 챗봇, 음성 인식 등의 분야에서 활용된다.
- 텍스트를 적절하게 전처리를 해주지 않으면 분석과정에서 잘못된 결과를 만들어낼 수 있다. 텍스트 전처리로는 토큰화, 정규화, 형태소분석 등이 있다.
- 단어의 표현방법으로는 단어의 출현 빈도를 계산하는 단어가방모형(Bag of Words) 과 각 문서를 대표하는 중요한 단어를 찾는 TF-IDF(Term Frequency Inverse Document Frequency) 등이 있다.
- 언어 모형(Language Model)은 단어 시퀀스에 대한 확률 분포(probability distribution)를 구해 언어를 처리하는 모형이다. 언어모형은 과거에는 통계적 모형이 주로 이용되었지만 최근에는 인공신경망을 이용한 모형이 주로 이용된다.