일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 재귀
- Spring
- java
- hadoop
- sort
- 빅데이터
- 자료구조
- 하둡
- 아마존
- 레드햇
- Redshift
- 리눅스
- AWS
- 스토리지
- data
- recursive
- 설치
- Amazon
- Data Structure
- linux
- redhat
- docker
- storage
- algorithm
- 자바
- 스프링
- big data
- 알고리즘
- rhcsa
- 도커
- Today
- Total
목록빅데이터 (6)
Developer MJ
Hadoop YARN 의 배경 하둡 온디맨드 공유 HDFS 내에 존재하는 영속적인 데이터를 공유하기 위한 private computing cluster를 수동으로 배포하고 해체하는 multitenency 이슈를 해결하기 위해 개발된 하둡 플랫폼 범용 하드웨어의 공유 클러스터에서 작동하는 하둡 맵리듀스와 HDFS 인스턴스를 프로비저닝하고 관리하는 YARN의 선행 프로젝트 단점 : 데이터 로컬리티 : 맵리듀스 잡트래커는 HDFS 내 입력데이터 인접한 곳에 잡을 배치하려고하지만, HOD의 리소스매니저인 토크sms HDFS에 데이터가 어떻게 분산되어있는지 데이터 로컬리티에 대한 정보가 없기 때문에 적은 양의 큰 작업과 많은 양의 작은 작업을 야기해 작은 작업들이 호스트에서 동작하게 만들었다. 토크/마우이의 일시..
하둡 프로그래밍 프레임워크 Hive - 하둡에서 실행되는 오픈소스 방식의 SQL 유사 데이터 웨어하우스 솔루션 - 분산 스토리지에서 대용량 데이터 세트를 관리하거나 쿼리를 실행 - 배치 및 대화형 지원 Presto - 오픈소스 방식의 분산 인메모리 SQL 쿼리 엔진 - 사용가능 메모리의 양이 제한되므로 배치작업은 부적합 - Not MapReduce - 빠른 대화형 쿼리 응답 Spark - 인메모리 처리 프레임워크 - 추가 포스팅 => https://1226choi.tistory.com/50Pig - 단순한 텍스트 형식의 데이터 흐름 언어 - 배치 및 대화형 지원
Apache Hadoop 및 AWS EMR Hadoop - Map, Reduce Function + HDFS - Java 기반 - Cluster -> Name Node 1개 + Data Node 3개 (default) Map-Reduce - Key-Value기반 분산 프로그래밍 프레임워크 - 대용량 데이터 세트를 병렬 분산처리 HDFS - 데이터블록 복제본을 클러스터 내 Data Node로 분산 YARN - Map-Reduce 2.0 ? - 작업 예약 및 클러스터 리소스 관리 클러스터 Master Node - Resource Manager 데몬 실행 -> 클러스터 리소스 관리 - Name Node 데몬 실행 -> 파일시스템의 네임스페이스 관리 및 클라이언트 엑세스 제어 - Core & Worker Nod..
스트리밍 데이터 처리 유형 배치 처리 - 유한 데이터 스트림 처리 - 연속 데이터 스트리밍 솔루션의 장점? - 처리단계와 분리되어 복수의 스트림으로 데이터를 동시에 수집하거나 병렬로 소비 가능Amazon Kinesis Firehose - 스트리밍 데이터를 캡처하고 변환하여 타겟(S3, Redshift, Elasticsearch, etc)으로 로드 - 로드 전에 배치, 압축, 암호화 가능 - 데이터를 대상 스토리지로 바로 로드하기 때문에 샤드 프로비저닝과 파티션 키가 필요없음 Streams - 데이터를 대상 스토리지로 로드하기 전에 처리 프로세스에서 사용하기 위해 샤드 프로비저닝 필요 Analytics Apache Spark Streaming - 데이터를 1초 미만 마이크로 배치로 분할 Apache Kaf..
수집 및 전송 데이터 수집 트랜잭션( 데이터베이스 읽기/쓰기) - 앱, 웹 서버 => DB 파일 - Flume, Log4j from Device => S3 스트림 - FluentD, Sqoop, Storm => Kinesis데이터 전송 Apache DistCp - HDFS에서 스토리지로 대용량 데이터를 MapReduce를 사용하여 분산방식으로 복사 Apache Sqoop - HDFS와 관계형 데이터베이스 사이에서 데이터를 전송가능 Snowball - 하루 최대 50테라 전송가능 - KMS를 통해 암호화 Snowball Edge - 100테라 로컬 스토리지 - S3 호환 엔드포인트, Lambda함수 지원 - Snowball 보다 4배 빠름 - KMS를 통해 암호화 Snowmobile - 모든 리전에서 사용..
개요 빅 데이터 - 사용자의 요구사항을 알아내기 위해 대량의 데이터를 수집하고 분석하기 위한 기술 데이터가 빅 데이터로 바뀌는 시점 ? - 수집, 저장, 구조화, 분석, 이동, 공유 등에 어려움 발생 - 속도, 볼륨, 다양성에 대한 처리 능력의 한계 도달 파이프라인 - 데이터가 유입되어 수집, 저장, 분석 및 시각화를 하여 Insight를 얻는데까지 일련의 과정 - 파이프라인에 배포하는 도구에 따라 응답시간이 상이함 수집 - Kinesis Firehose, Snowball, SQS, EC2 저장 - S3, Glacier, Kinesis Stream, RDS, DynamoDB, CloudSearch 처리 및 분석 - EMR, Lambda, Kinesis Analytics, Redshift, SageMake..