13강. 빅데이터 기술 1

학습개요

빅데이터는 매우 크고, 다양하고 빠르게 생성되는 특성이 있어서 빅데이터로부터 의미있는 통찰을 얻으려면 하나의 컴퓨터와 정형 데이터 기반 데이터베이스로는 저장·처리·분석하기 어렵다.

빅데이터를 저장·처리·분석하기 위해서는 분산 데이터 처리 인프라와 관련된 프레임워크를 구축해야 한다. 이 장에서는 분산 컴퓨팅에 대해 먼저 살펴보고, 분산 데이터 프레임워크인 하둡(Hadoop)과 스파크(Spark)에 대해 살펴본다.

학습목표

  1. 분산 컴퓨팅의 필요성에 대해 살펴본다.
  2. 클라우드 컴퓨팅에 대해 살펴본다.
  3. 하둡과 스파크에 대해 살펴본다.

연습문제

  1. 다음 중 하둡 맵리듀스에서 사용하는 요소가 아닌 것은?
    1. name node
    2. reducer
    3. combiner
    4. mapper
      정답 : 1

      네임노드는 하둡 분산 파일 시스템의 구성요소이다.

  2. 다음 중 NoSQL 데이터베이스가 아닌 것은?
    1. Pandas
    2. MongoDB
    3. 아파치 HBase
    4. Cassandra
      정답 : 1

      Pandas는 Python 라이브러리이다.

  3. 스파크(Spark)에 대한 설명 중 가장 바른 것은?
    1. 대용량 데이터 처리를 위해 만들어진 스칼라(Scala), 인-메모리 기반 오픈소스 프레임워크
    2. 대용량 데이터 처리를 위해 만들어진 스칼라, 디스크 기반 오픈소스 프레임워크
    3. 대용량 데이터 처리를 위해 만들어진 파이선(Python), 인-메모리 기반 오픈소스 프레임워크
    4. 대용량 데이터 처리를 위해 만들어진 파이선, 디스크 기반 오픈소스 프레임워크
      정답 : 1

      스파크는 대용량 데이터 처리를 위해 만들어진 Scala, 인-메모리 기반 오픈소스 프레임워크이다.

정리하기

  1. 분산 파일 시스템은 대용량의 파일을 쪼개어 다수의 컴퓨터에 분산시켜 고속으로 처리하기 위한 파일 시스템이다.
  2. 클라우드 컴퓨팅은 컴퓨팅 자원을 인터넷을 통하여 제공하는 서비스이다.
  3. 대용량 데이터를 분산 처리할 수 있는 JAVA 기반 오픈소스 프레임워크로는 하둡(Hadoop)이 있다. 맵리듀스 프로그래밍 모형에서는 키와 값의 쌍을 다루는 맵과 리듀스 함수를 작성하여 빅데이터를 처리한다.
  4. 스파크(Spark)는 대용량 데이터 처리를 하둡보다 빠르게 하기 위해 만들어진 스칼라(Scala) 기반 오픈소스 프레임워크이다.

Leave a Comment