학습개요
데이터는 내부 데이터와 외부 데이터로 구분된다. 외부 데이터는 인터넷에 연결되어 구할 수 있는 데이터로 데이터베이스, 공개 API, 공개된 웹페이지 등을 통해 수집되거나 구매를 통해 수집된다. 외부데이터를 활용하고 이를 내부데이터와 결합하는 것이 빅데이터 수집과 활용에서 중요하다. 이 강에서는 빅데이터의 수집 전반에 대해 살펴보고, 외부 데이터 중 네이버와 구글의 검색데이터의 활용, 구글 Ngram Viewer에 대해 살펴본다.
학습목표
- 빅데이터의 수집에 대해 살펴본다.
- 검색데이터의 활용에 대해 살펴본다.
- 책(book) 텍스트 데이터의 활용에 대해 살펴본다.
연습문제
- 구글 독감 트렌드에 대해 가장 바르게 기술한 것은?
- 구글 독감 관련 키워드의 검색 트렌드
- 구글 독감 환자 검색 트렌드
- 구글 독감 관련 키워드의 검색 수와 독감 증상이 있어서 병원을 방문한 환자 수 간의 관계를 바탕으로 독감 유행 수준의 실시간 예측 서비스
- 독감 환자 수를 시계열 모형으로 예측한 서비스
정답 : 3
- API(Application Programming Interface)는 외부 개발자·사용자들이 사용할 수 있도록 하는 프로그래밍 인터페이스이다.
O
X - 구글 북스(books)에서 키워드의 시간적 흐름을 살펴볼 수 있는 서비스는?
- Ngram Viewer
- Trend
- Datalab
- Tracker
정답 : 1
정리하기
- 빅데이터는 내부 데이터와 외부 데이터로 구성되어 있다.
- 데이터의 수집이란 기업 및 정부의 내부 데이터와 외부의 다양한 데이터를 검색하여 수집하고 이를 변환, 통합하는 것을 의미한다.
- 구글 Ngram Viewer를 통해 구글 도서에 있는 키워드의 시간적 흐름을 살펴볼 수 있다.