Developer MJ

[AWS] Big Data - 스토리지 본문

AWS

[AWS] Big Data - 스토리지

MIN JOON 2019. 2. 15. 11:04

스토리지
  • 데이터 웨어하우스
    - OLAP 성 작업
    - 기존 데이터베이스 상위에서 실행가능하며, 일반적으로 데이터가 중복된 테이블을 사용
    - 여러 소스의 데이터를 통합하고 일관성 있는 데이터로 관리
    - 현재 데이터는 물론 이력 데이터도 관리
  • Redshfit
    - 페타바이트 규모의 열 기반 데이터 웨어하우스
    - SQL 작업을 병렬화 하여 대규모 분산 병렬처리 가능
    • 리더 노드
      - SQL 엔드포인트
      - 메타데이터 저장
      - 컴퓨팅 노드들에게 분산 쿼리 실행 명령
    • 컴퓨팅 노드
      - 로컬에 열 형식으로 데이터를 분산 저장 => 컴퓨팅 노드 간 데이터 교환 효율성을 위해
      - 병렬 쿼리 실행 결과를 리더 노드에 반환
      - S3, EMR, DynamoDB, SSH를 통한 데이터 로드
  • 데이터 레이크
    - 중앙 집중식 저장소에서 방대한 볼륨과 다양한 유형의 데이터를 저장하고 분석하는 방법
  • Athena
    - 데이터 로드 및 수집하지 않고 S3에서 직접 쿼리를 실행하는 읽기 위주의 스키마를 가짐
    - 서버리스 아키텍처로 인프라 관리 불필요
    - SQL 쿼리용 인메모리 분산 쿼리 엔진인 Presto 사용
    • 사용 사례
      • S3를 데이터 레이크로 사용
        - 임시 쿼리를 위한 Athena *
        - 이력 분석을 위한 Redshift
        - ETL 및 분석을 위한 EMR
        - 데이터 시각화를 위한 QuickSight
      • Glue와 통합
        - 스키마 및 파티션 자동인식
        - 통합 메타데이터 저장소
    • 테이블
      - 데이터 정의 문(DDL)은 Hive로 작성
    • 파티션
      - 열을 기준으로 한 파티션 분할
      - 기본적으로 시간을 기준으로 세분화
      - 쿼리 시 시간을 조건으로 파티션들 중에서 조건을 만족하는 것만 검색하도록 스캔 데이터 크기 제한 


'AWS' 카테고리의 다른 글

[AWS] Big Data - 하둡 프로그래밍 프레임워크  (0) 2019.02.15
[AWS] Big Data - Hadoop & EMR  (0) 2019.02.15
[AWS] Big Data - 스트리밍  (0) 2019.02.13
[AWS] Big Data - 데이터 수집 및 전송  (0) 2019.02.13
[AWS] Big Data - 개요  (0) 2019.02.13