Developer MJ

[AWS] Big Data - Spark 본문

AWS

[AWS] Big Data - Spark

MIN JOON 2019. 2. 15. 11:12

Spark

  • Spark
    - 인메모리 분석방식 -> 클러스터 프로그래밍 모델은 데이터를 반복적으로 재사용하기 때문이다
    - 배치, 대화식 및 스트리밍 데이터 지원
    - 텍스트 및 하둡 파일 형식 지원
    - HDFS, S3 및 기타 데이터베이스 데이터를 읽고 저장 가능
    • RDD (Resilient Distributed Datasets)
      - Spark 프로그래밍 모델
      - 클러스터 노드 사이에 인메모리로 캐싱되는 읽기 전용 분산 객체 집합
      - MapReduce의 내결함성과 데이터 지역성 그리고 확장성 유지
      - 스토리지 데이터에서 RDD를 생성한 후 변환 또는 액션을 사용
      - 실행가능하도록 스테이지로 구성된 DAG(Directed Acyclic Graph) 빌드
      - 메모리에 DataFrames를 저장하여 I/O 최소화
      - 파티션으로 집약적 셔플 방지
    • 라이브러리
      - DataFrame + Dataset API => Dataset API
      - Spark SQL => 온디스크 또는 인메모리 구조화 데이터 처리
      - Spark Streaming => 스트림 처리 애플리케이션 개발
      - SparkML => 확장 가능한 분산 머신 러닝 알고리즘 라이브러리
      - GraphX => 그래프 및 그래프 병렬 계산에 사용하는 API
      - Spark 기반 Hive => MapReduce 또는 Tez의 Hive 실행 


'AWS' 카테고리의 다른 글

[AWS] Amazon Redshift  (0) 2019.05.22
[AWS] 데이터 웨어하우스 (Data Warehouse)  (0) 2019.05.22
[AWS] Big Data - 하둡 프로그래밍 프레임워크  (0) 2019.02.15
[AWS] Big Data - Hadoop & EMR  (0) 2019.02.15
[AWS] Big Data - 스토리지  (0) 2019.02.15