[AWS] Big Data - Hadoop & EMR

Notice

Recent Posts

Tags more

Archives

관리 메뉴

Developer MJ

AWS

MIN JOON 2019. 2. 15. 11:08

Apache Hadoop 및 AWS EMR

Hadoop
- Map, Reduce Function + HDFS
- Java 기반
- Cluster -> Name Node 1개 + Data Node 3개 (default)
- Map-Reduce
  - Key-Value기반 분산 프로그래밍 프레임워크
  - 대용량 데이터 세트를 병렬 분산처리
- HDFS
  - 데이터블록 복제본을 클러스터 내 Data Node로 분산
- YARN
  - Map-Reduce 2.0 ?
  - 작업 예약 및 클러스터 리소스 관리
- 클러스터
- - Master Node
    - Resource Manager 데몬 실행 -> 클러스터 리소스 관리
    - Name Node 데몬 실행 -> 파일시스템의 네임스페이스 관리 및 클라이언트 엑세스 제어
    - Core & Worker Node 모니터링
  - Core Node
    - CPU & RAM + HDFS
    - HDFS
    - Node Manager -> 실제 작업 수행
    - Mapper가 Input을 처리하고 Reducer에게 전달하여 Output
  - Worker Node
    - CPU & RAM
EMR
- Hadoop, Spark, Presto 어플리케이션 실행하여 방대한 양의 데이터를 처리 분석하는 클러스터 플랫폼
- 클러스터 생성 시 Hive, Pig, Hue, Spark 등의 프로젝트를 자동으로 설치 가능
- Output을 S3에 저장 가능하며 압축도 가능
- HDFS 데이터는 클러스터 실행하는 동안에만 지속

'AWS' Related Articles