학습개요
빅데이터 분석에서는 데이터를 시각화해서 의미를 직관적으로 이해하고 판단하는 것이 중요하다. 시각화 도구로는 R, Python, Tableau, Power BI와 D3.js 등이 있다. 빅데이터 시각화는 수치 데이터 중심의 시각화에서 텍스트, 관계에 대한 시각화로 확장되고 있다.
수치데이터 시각화 관련 그래프로는 막대 그래프, 꺽은선 그래프, 버블 그래프 등이 있고, 텍스트 데이터의 시각화 방법으로는 워드 클라우드 등이 있다. 한편 소셜 데이터에서 친구들 간 관계는 네트워크 그래프를 통해 표현된다. 이 장에서는 데이터 시각화의 의미와 정보시각화 도구를 살펴보고 다양한 그래프를 소개한다. 아울러 텍스트 시각화 방법과 소셜네트워크 관계를 시각화하는 방법을 살펴본다.
학습목표
- 데이터 시각화의 정의를 살펴본다.
- 시간 시각화에 대해 살펴본다.
- 텍스트 데이터 시각화에 대해 살펴본다.
- 소셜네트워크 데이터 시각화에 대해 살펴본다.
- 데이터 시각화 도구에 대해 살펴본다.
연습문제
- 다음 중 시계열 데이터를 표현하기에 적합하지 않은 시각화는 무엇인가?
- 선 그래프
- 점 그래프
- 네트워크 그래프
- 버블 그래프
정답 : 3
- 소셜 네트워크의 시각화에서 행위자들은 ( 가 ) 혹은 ( 나 )로 표현되고, 두 ( 가 또는 나 )를 연결하는 선을 ( 다 ) 혹은 ( 라 )라고 부른다.
정답 : (가)버티스 (나)노드 (다)엣지 (라)링크
- 단어의 공출현(co-occurrence) 네트워크 시각화는 서로 다른 문장에 등장하는 단어들을 엣지(링크)로 연결한 것이다.
O
X정답 : X
정리하기
- 데이터 시각화는 컴퓨터를 사용하여 인지를 넓힐 수 있도록 데이터를 상호작용이 가능한 시각적 형태로 만드는 것을 의미한다. 시각화의 목적은 데이터의 숨은 의미를 발견하고, 설명하고, 그걸 통해 의사결정을 내리는 통찰력에 있다.
- 시간 시각화는 시계열 데이터의 시각화를 의미하며 이를 통해 경향성을 파악할 수 있다.
- 텍스트 시각화는 문서들을 시각화 하는 것으로 태그 클라우드와 워드 트리가 있다.
- 태그 클라우드는 문서에 등장한 단어의 빈도수를 이용하여 어떠한 단어를 많이 사용했는지를 시각화해 준다.
- 워드트리는 특정한 단어가 다른 단어들과 어떠한 구조로 연결되어 있는지를 시각화해준다.
- 소셜 네트워크의 시각화에서 행위자들은 버티스 혹은 노드로 표현되고 노드와 노드사이에 연결이 이루어질 때 두 노드를 연결하는 선을 엣지라고 부르고 노드와 엣지의 관계를 그림으로 표현한 것을 그래프라고 부른다.