Chapter 6. 빅데이터 분석 기반의 구축

1. 스키마리스 데이터의 애드 혹 분석

스키마리스 데이터 수집하기

대화식 실행 환경의 준비

Spark에 의한 분산 환경 ― 데이터양이 늘어도 대응 가능하게 하기

데이터를 집계해서 데이터 마트 구축하기

BI 도구로 데이터 시각화하기

2. Hadoop에 의한 데이터 파이프라인

일일 배치 처리를 태스크화하기

Embulk에 의한 데이터 추출

Hive에 의한 데이터 구조화

Presto에 의한 데이터 집계

3. 워크플로 관리 도구에 의한 자동화

Airflow ― 스크립트 형의 워크플로 관리

워크플로를 터미널로부터 실행하기

스케줄러를 기동하여 DAG를 정기 실행하기

태스크가 소비하는 자원 제어하기

Hadoop의 데이터 파이프라인을 실행하기

4. 클라우드 서비스에 의한 데이터 파이프라인

데이터 분석과 클라우드 서비스의 관계

아마존 웹 서비스

구글 클라우드 플랫폼

트레주어 데이터

5. 정리

Last updated