일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- java
- 설치
- AWS
- 자료구조
- 레드햇
- hadoop
- docker
- redhat
- sort
- 스토리지
- big data
- Amazon
- 알고리즘
- 리눅스
- 하둡
- Spring
- data
- recursive
- linux
- 재귀
- 빅데이터
- 도커
- Data Structure
- algorithm
- storage
- rhcsa
- Redshift
- 자바
- 스프링
- 아마존
- Today
- Total
목록하둡 (5)
Developer MJ
단일 노드 YARN 클러스터 설치 하둡 배포판에 포함된 맵리듀스 예제 프로그램을 단일 워크스테이션에서 테스트 해볼 수 있도록 간소화된 설치 및 설정 방법이다. 예제 프로그램의 경로는 아래와 같다. /opt/yarn/hadoop-2.2.0/share/hadoop/mapreduce 아파치 하둡 다운로드 cd /root wget http://mirrors.ibiblio.org/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0.tar.gz mkdir -p /opt/yarn cd /opt/yarn tar xvzf /root/hadoop-2.2.0.tar.gz JAVA_HOME 설정 OS 사용자와 그룹 생성 groupadd hadoop useradd -g hadoop yarn us..
Hadoop YARN 의 배경 하둡 온디맨드 공유 HDFS 내에 존재하는 영속적인 데이터를 공유하기 위한 private computing cluster를 수동으로 배포하고 해체하는 multitenency 이슈를 해결하기 위해 개발된 하둡 플랫폼 범용 하드웨어의 공유 클러스터에서 작동하는 하둡 맵리듀스와 HDFS 인스턴스를 프로비저닝하고 관리하는 YARN의 선행 프로젝트 단점 : 데이터 로컬리티 : 맵리듀스 잡트래커는 HDFS 내 입력데이터 인접한 곳에 잡을 배치하려고하지만, HOD의 리소스매니저인 토크sms HDFS에 데이터가 어떻게 분산되어있는지 데이터 로컬리티에 대한 정보가 없기 때문에 적은 양의 큰 작업과 많은 양의 작은 작업을 야기해 작은 작업들이 호스트에서 동작하게 만들었다. 토크/마우이의 일시..
Spark Spark - 인메모리 분석방식 -> 클러스터 프로그래밍 모델은 데이터를 반복적으로 재사용하기 때문이다 - 배치, 대화식 및 스트리밍 데이터 지원 - 텍스트 및 하둡 파일 형식 지원 - HDFS, S3 및 기타 데이터베이스 데이터를 읽고 저장 가능 RDD (Resilient Distributed Datasets) - Spark 프로그래밍 모델 - 클러스터 노드 사이에 인메모리로 캐싱되는 읽기 전용 분산 객체 집합 - MapReduce의 내결함성과 데이터 지역성 그리고 확장성 유지 - 스토리지 데이터에서 RDD를 생성한 후 변환 또는 액션을 사용 - 실행가능하도록 스테이지로 구성된 DAG(Directed Acyclic Graph) 빌드 - 메모리에 DataFrames를 저장하여 I/O 최소화 -..
하둡 프로그래밍 프레임워크 Hive - 하둡에서 실행되는 오픈소스 방식의 SQL 유사 데이터 웨어하우스 솔루션 - 분산 스토리지에서 대용량 데이터 세트를 관리하거나 쿼리를 실행 - 배치 및 대화형 지원 Presto - 오픈소스 방식의 분산 인메모리 SQL 쿼리 엔진 - 사용가능 메모리의 양이 제한되므로 배치작업은 부적합 - Not MapReduce - 빠른 대화형 쿼리 응답 Spark - 인메모리 처리 프레임워크 - 추가 포스팅 => https://1226choi.tistory.com/50Pig - 단순한 텍스트 형식의 데이터 흐름 언어 - 배치 및 대화형 지원
Apache Hadoop 및 AWS EMR Hadoop - Map, Reduce Function + HDFS - Java 기반 - Cluster -> Name Node 1개 + Data Node 3개 (default) Map-Reduce - Key-Value기반 분산 프로그래밍 프레임워크 - 대용량 데이터 세트를 병렬 분산처리 HDFS - 데이터블록 복제본을 클러스터 내 Data Node로 분산 YARN - Map-Reduce 2.0 ? - 작업 예약 및 클러스터 리소스 관리 클러스터 Master Node - Resource Manager 데몬 실행 -> 클러스터 리소스 관리 - Name Node 데몬 실행 -> 파일시스템의 네임스페이스 관리 및 클라이언트 엑세스 제어 - Core & Worker Nod..