[AWS] Big Data

Notice

Recent Posts

Tags more

Archives

관리 메뉴

Developer MJ

AWS

MIN JOON 2019. 2. 15. 11:12

Spark

Spark
- 인메모리 분석방식 -> 클러스터 프로그래밍 모델은 데이터를 반복적으로 재사용하기 때문이다
- 배치, 대화식 및 스트리밍 데이터 지원
- 텍스트 및 하둡 파일 형식 지원
- HDFS, S3 및 기타 데이터베이스 데이터를 읽고 저장 가능
- RDD (Resilient Distributed Datasets)
  - Spark 프로그래밍 모델
  - 클러스터 노드 사이에 인메모리로 캐싱되는 읽기 전용 분산 객체 집합
  - MapReduce의 내결함성과 데이터 지역성 그리고 확장성 유지
  - 스토리지 데이터에서 RDD를 생성한 후 변환 또는 액션을 사용
  - 실행가능하도록 스테이지로 구성된 DAG(Directed Acyclic Graph) 빌드
  - 메모리에 DataFrames를 저장하여 I/O 최소화
  - 파티션으로 집약적 셔플 방지
- 라이브러리
  - DataFrame + Dataset API => Dataset API
  - Spark SQL => 온디스크 또는 인메모리 구조화 데이터 처리
  - Spark Streaming => 스트림 처리 애플리케이션 개발
  - SparkML => 확장 가능한 분산 머신 러닝 알고리즘 라이브러리
  - GraphX => 그래프 및 그래프 병렬 계산에 사용하는 API
  - Spark 기반 Hive => MapReduce 또는 Tez의 Hive 실행

'AWS' Related Articles