Chapter 1. 빅데이터의 기초 지식

1. 빅데이터의 정착

분산 시스템에 의한 데이터 처리의 고속화

  • Hadoop은 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템

    • 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로 처리할 수 있는 구조가 필요

    • 그러기 위해서는 수백 대, 수천 대 단위의 컴퓨터가 이용되어야 하며, 그것을 관리하는 것이 Hadoop 프레임워크

  • SQL과 같은 쿼리 언어를 Hadoop에서 실행하기 위한 소프트웨어가 Hive

  • NoSQL은 전통적인 RDB의 제약을 제거하는 것을 목표로 한 데이터베이스의 총칭

    • 키-밸류 스토어

    • 도큐먼트 스토어

    • 와이드 칼럼 스토어

  • Hadoop과 NoSQL를 조합함으로써 'NoSQL 데이터베이스에 기록하고 Hadoop으로 분산 처리하기'라는 흐름이 2011년 말까지 정착

분산 시스템의 비즈니스 이용 개척

  • 가속도적으로 늘어나는 데이터의 처리는 Hadoop에 맡기고, 비교적 작은 데이터, 또는 중요한 데이터만을 데이터 웨어하우스에 넣는 식으로 사용을 구분

직접 할 수 있는 데이터 분석 폭 확대

  • 여러 컴퓨터에 분산 처리 -> 빅데이터의 특징

데이터 디스커버리

  • 데이터 웨어하우스에 저장된 데이터를 시각화하는 방법

  • 셀프서비스용 BI 도구

    • BI(business intelligence tool)는 경영자용 시각화 시스템

2. 빅데이터 시대의 데이터 분석 기반

  • 빅데이터 기술이 기존의 데이터 웨어하우스와 다른 점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만든다는 점

빅데이터의 기술

  • 데이터 파이프라인

  • 데이터 수집

  • 스트림 처리와 배치 처리

  • 분산 스토리지

  • 분산 데이터 처리

  • 워크플로 관리

데이터 웨어하우스와 데이터 마트

데이터 레이크

데이터 분석 기반을 단계적으로 발전시키기

데이터를 수집하는 목적

확증적 데이터 분석과 탐색적 데이터 분석

3. 스크립트 언어에 의한 특별 분석과 데이터 프레임

데이터 처리와 스크립트 언어

데이터 프레임, 기초 중의 기초

웹 서버의 액세스 로그의 예

시계열 데이터를 대화식으로 집계하기

SQL 의 결과를 데이터 프레임으로 활용하기

4. BI 도구와 모니터링

스프레드시트에 의한 모니터링

데이터에 근거한 의사 결정

변화를 파악하고 세부 사항을 이해하기

수작업과 자동화해야 할 것의 경계를 판별하기

5. 요약

Last updated