Developer MJ

[AWS] Big Data - 스트리밍 본문

AWS

[AWS] Big Data - 스트리밍

MIN JOON 2019. 2. 13. 21:31

스트리밍
  • 데이터 처리 유형
    • 배치 처리 - 유한 데이터
    • 스트림 처리 - 연속 데이터
  • 스트리밍 솔루션의 장점?
    - 처리단계와 분리되어 복수의 스트림으로 데이터를 동시에 수집하거나 병렬로 소비 가능
  • Amazon Kinesis
    • Firehose
      - 스트리밍 데이터를 캡처하고 변환하여 타겟(S3, Redshift, Elasticsearch, etc)으로 로드
      - 로드 전에 배치, 압축, 암호화 가능
      - 데이터를 대상 스토리지로 바로 로드하기 때문에 샤드 프로비저닝과 파티션 키가 필요없음
    • Streams
      - 데이터를 대상 스토리지로 로드하기 전에 처리 프로세스에서 사용하기 위해 샤드 프로비저닝 필요
    • Analytics
  • Apache Spark Streaming
    - 데이터를 1초 미만 마이크로 배치로 분할
  • Apache Kafka
    - 스트림에 게시 및 구독을 할 수 있도록 하는 오픈소스
    - 처리량이 많고 지연시간이 짧은 통합 플랫폼
  • EC2 나 EMR에 설치 가능한 도구
    • Apache Flume, Apache Storm, Apache Samza, Apache Flink
  • 스트림 수집 옵션
    • AWS
      - Kinesis, DynamoDB Streams, SQS, SNS
    • 타사
      - EC2 내 Kafka
  • 스트림 처리 옵션
    • AWS
      - Kinesis Consumer Library, Lambda, EMR
    • 타사
      - EMR 내 Spark Streaming, Flink
      - EC2 내 Storm 


'AWS' 카테고리의 다른 글

[AWS] Big Data - Hadoop & EMR  (0) 2019.02.15
[AWS] Big Data - 스토리지  (0) 2019.02.15
[AWS] Big Data - 데이터 수집 및 전송  (0) 2019.02.13
[AWS] Big Data - 개요  (0) 2019.02.13
[AWS] 시스템 운영 - 배포 자동화  (0) 2019.01.25