Chapter 5. 빅데이터의 파이프라인

1. 워크플로 관리

[기초 지식] 워크플로 관리 ― 데이터의 흐름을 일원 관리하기

오류로부터의 복구 방법 먼저 생각하기

멱등한 조작으로 태스크를 기술하기 ― 동일 태스크를 여러 번 실행해도 동일한 결과가 된다

워크플로 전체를 멱등으로 하기

태스크 큐 ― 자원의 소비량 컨트롤하기

2. 배치 형의 데이터 플로우

MapReduce의 시대는 끝났다 ― 데이터 플로우와 워크플로

MapReduce를 대신할 새로운 프레임워크 ― DAG에 의한 내부 표현

데이터 플로우와 워크플로를 조합하기

데이터 플로우와 SQL을 나누어 사용하기 ― 데이터 웨어하우스의 파이프라인과 데이터 마트의 파이프라인

3. 스트리밍 형의 데이터 플로우

배치 처리와 스트림 처리로 경로 나누기

배치 처리와 스트림 처리 통합하기

스트림 처리의 결과를 배치 처리로 치환하기 ― 스트림 처리의 두 가지 문제에 대한 대처

아웃 오브 오더의 데이터 처리

4. 정리

Last updated