Developer MJ

[AWS] Big Data - Hadoop & EMR 본문

AWS

[AWS] Big Data - Hadoop & EMR

MIN JOON 2019. 2. 15. 11:08

Apache Hadoop 및 AWS EMR 
  • Hadoop
    - Map, Reduce Function + HDFS
    - Java 기반
    - Cluster -> Name Node 1개 + Data Node 3개 (default)
    • Map-Reduce
      - Key-Value기반 분산 프로그래밍 프레임워크
      - 대용량 데이터 세트를 병렬 분산처리
    • HDFS
      - 데이터블록 복제본을 클러스터 내 Data Node로 분산
    • YARN
      - Map-Reduce 2.0 ?
      - 작업 예약 및 클러스터 리소스 관리
    • 클러스터
      • Master Node
        - Resource Manager 데몬 실행 -> 클러스터 리소스 관리
        - Name Node 데몬 실행 -> 파일시스템의 네임스페이스 관리 및 클라이언트 엑세스 제어
        - Core & Worker Node 모니터링
      • Core Node
        - CPU & RAM + HDFS
        - HDFS
        - Node Manager -> 실제 작업 수행
        - Mapper가 Input을 처리하고 Reducer에게 전달하여 Output
      • Worker Node
        - CPU & RAM
  • EMR
    - Hadoop, Spark, Presto 어플리케이션 실행하여 방대한 양의 데이터를 처리 분석하는 클러스터 플랫폼
    - 클러스터 생성 시 Hive, Pig, Hue, Spark 등의 프로젝트를 자동으로 설치 가능
    - Output을 S3에 저장 가능하며 압축도 가능
    - HDFS 데이터는 클러스터 실행하는 동안에만 지속


'AWS' 카테고리의 다른 글

[AWS] Big Data - Spark  (0) 2019.02.15
[AWS] Big Data - 하둡 프로그래밍 프레임워크  (0) 2019.02.15
[AWS] Big Data - 스토리지  (0) 2019.02.15
[AWS] Big Data - 스트리밍  (0) 2019.02.13
[AWS] Big Data - 데이터 수집 및 전송  (0) 2019.02.13