5강. 텍스트 빅데이터

학습개요

텍스트(text)는 숫자와 더불어 가장 대표적인 정보의 저장 단위이며, 월드와이드웹이 등장한 이후, 그 양은 현저하게 증가하여 빅데이터의 주요 부분을 이루고 있다. 이러한 텍스트 빅데이터로부터 그 구조와 의미를 찾는 인공지능을 이용한 자연어처리 서비스가 확산되고 있다.

텍스트 빅데이터 기반의 서비스로는 텍스트 요약, 텍스트의 분류, 감성 분석, 의미연결망 분석, 기계번역, 질의응답, 챗봇, 음성 인식 등이 있다. 이 장에서는 텍스트 빅데이터와 자연어처리 서비스를 살펴보고 자연어 처리관련 토큰화, 정규화, 형태소분석, 단어의 표현방법과 언어모형에 대해 살펴본다.

학습목표

  1. 텍스트 빅데이터에 대해 이해한다.
  2. 자연어 처리 기술의 활용에 대해 살펴본다.
  3. 텍스트 전처리에 대해 살펴본다.
  4. 언어모형에 대해 살펴본다.

연습문제

  1. 다음 중 자연어 처리로 할 수 있는 일과 관계가 없는  것은?
    1. 새로 발표된 정부의 부동산 정책에 대해 사람들이 소셜미디어에 올린 의견을 분석하였다.
    2. 카페에서 로봇에게 커피를 주문했다.
    3. 올해 주가를 분석하여 내년 전망을 예측했다.
    4. 뉴욕타임즈 영문 기사를 구글 트랜슬레이터로 번역하여 한글로 읽어보았다.
      정답 : 3

      주가 분석에 사용되는 데이터는 숫자이기 때문에 자연어 처리를 하지 않는다.

  2. TF-IDF는 각 문서를 대표하는 중요한 단어를 찾는데 적합한 알고리즘이기 때문에 문서를 검색하는데 주로 사용된다.
    O
    X

    정답 : O

    TF-IDF는 단어의 중요도를 단순히 빈도수를 바탕으로 계산을 하는 것이 아니라, 각 문서에서 얼마나 중요한 지를 계산하기 때문에 문서의 검색, 챗봇에서 답변의 탐색 등에 사용된다.

  3. 아래 지문과 같이 단어사전이 구축되어 있을 때 제시된 단어의 원-핫 인코딩 행렬을 구하시오.
    0 1 2 3 4 5 6 7 8 9
    텍스트 처리 분석 문서 포함 단어 집합 사전 출연 필요

    제시된 단어: 집합

    정답 : [0, 0, 0, 0, 0, 0, 1, 0, 0, 0]

    ‘집합’이라는 단어의 인덱스는 6이어서 인덱스 6 자리에만 1을 표기하고 나머지는 0으로 표기한다.

정리하기

  1. 텍스트(text)는 숫자와 더불어 가장 대표적인 정보의 저장 단위이며, 월드와이드웹이 등장한 이후, 그 양은 현저하게 증가하고 있다.
  2. 자연어처리(NLP)는 컴퓨터가 자연어의 의미를 분석할 수 있도록 처리하는 것을 말 하는데, 텍스트 요약, 텍스트의 분류, 감성 분석, 의미연결망 분석, 기계번역, 질의응답, 챗봇, 음성 인식 등의 분야에서 활용된다.
  3. 텍스트를 적절하게 전처리를 해주지 않으면 분석과정에서 잘못된 결과를 만들어낼 수 있다. 텍스트 전처리로는 토큰화, 정규화, 형태소분석 등이 있다.
  4. 단어의 표현방법으로는 단어의 출현 빈도를 계산하는 단어가방모형(Bag of Words) 과 각 문서를 대표하는 중요한 단어를 찾는 TF-IDF(Term Frequency Inverse Document Frequency) 등이 있다.
  5. 언어 모형(Language Model)은 단어 시퀀스에 대한 확률 분포(probability distribution)를 구해 언어를 처리하는 모형이다. 언어모형은 과거에는 통계적 모형이 주로 이용되었지만 최근에는 인공신경망을 이용한 모형이 주로 이용된다.

Leave a Comment