Chapter 4. 빅데이터의 축적

1. 벌크 형과 스트리밍 형의 데이터 수집

객체 스토리지와 데이터 수집 ― 분산 스토리지에 데이터 읽어들이기

벌크 형의 데이터 전송 ― ETL 서버의 설치 필요성

스트리밍 형의 데이터 전송

2. [성능 x 신뢰성] 메시지 배송의 트레이드 오프

메시지 브로커 ― 스토리지의 성능 문제를 해결하는 중간층의 설치

메시지 배송을 확실하게 실시하는 것은 어렵다 ― 신뢰성 문제와 세 가지 설계 방식

중복 제거는 높은 비용의 오퍼레이션

데이터 수집의 파이프라인

3. 시계열 데이터의 최적화

프로세스 시간와 이벤트 시간 ― 데이터 분석의 대상은 주로 이벤트 시간

프로세스 시간에 의한 분할과 문제점 ― 최대한 피하고 싶은 풀 스캔

시계열 인덱스

조건절 푸쉬다운

이벤트 시간에 의한 분할

4. 비구조화 데이터의 분산 스토리지

분산 KVS ― 디스크로의 쓰기 성능을 높이기

와이드 칼럼 스토어 ― 구조화 데이터를 분석해서 저장하기

도큐먼트 스토어 ― 스키마리스 데이터 관리하기

검색 엔진 ― 키워드 검색으로 데이터 검색

5. 정리

Last updated