14강. 빅데이터 기술 2

학습개요

빅데이터는 매우 크고, 다양하고 빠르게 생성되는 특성이 있어서 빅데이터로부터 의미있는 통찰을 얻으려면 하나의 컴퓨터와 정형 데이터 기반 데이터베이스로는 저장·처리·분석하기 어렵다.

빅데이터를 저장·처리·분석하기 위해서는 분산 데이터 처리 인프라와 관련된 프레임워크를 구축해야 한다. 본 강의에서는 파이선(Python) 기반으로 빅데이터를 분산 처리 및 분석할 수 있는 대스크(Dask)를 소개하고, 분산 계산의 기본 원리인 계산 그래프에 대해 알아본다.

학습목표

  1. 대스크(Dask)에 대해 살펴본다.
  2. 계산 그래프에 대해 살펴본다.
  3. 대스크를 이용한 기계학습의 예에 대해 살펴본다.

연습문제

  1. 다음 중 대스크(Dask)의 계층 구성 요소가 아닌 것은?
    1. 스케줄러
    2. 대스크 Delayed 객체
    3. 구글 파일 시스템
    4. 대스크 배열
      정답 : 3

      구글 파일 시스템은 구글의 독자적 파일시스템이다.

  2. 빅데이터를 파이선(Python)으로 통계분석하는데 제약조건에 대해 바르게 기술한 것은?
    1. 파이선은 모든 데이터를 메모리에 올려서 처리하기 때문에 빅데이터를 분석하는 데에는 한계가 있다.
    2. 파이선은 모든 데이터를 하드디스크에 올려서 처리하기 때문에 빅데이터를 분석하는 데에는 한계가 있다.
    3. 파이선은 빅데이터를 분석할 수 있는 함수가 없기 때문에 빅데이터를 분석하는 데에는 한계가 있다.
    4. 파이선은 빅데이터를 읽을 수 있는 함수가 없기 때문에 빅데이터를 분석하는 데에는 한계가 있다.
      정답 : 1

      파이선은 모든 데이터를 메모리에 올려서 처리하기 때문에 빅데이터를 분석하는 데에는 한계가 있다.

정리하기

  1. 대스크(Dask)는 대용량 데이터를 처리, 분석할 수 있는 Python 라이브러리인데 스케줄러, 저수준 API, 고수준 API의 3개 계층으로 구성되어 있다.
  2. 대스크에서는 분산 환경에서 빅데이터를 처리하는 방식과 비분산 환경(단일 컴퓨터)에서 중소용량 데이터를 처리하는 방식이 다르지 않다.
  3. 대스크의 분산 계산은 연산의 의존관계를 나타내는 계산 그래프를 통해 이루어진다.
  4. 의존관계 분석이 분산 컴퓨팅의 핵심이다.

Leave a Comment