일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- big data
- rhcsa
- 알고리즘
- 아마존
- sort
- 자바
- 스프링
- 자료구조
- AWS
- recursive
- 레드햇
- docker
- 설치
- 스토리지
- linux
- 하둡
- hadoop
- algorithm
- Data Structure
- 재귀
- 리눅스
- 도커
- Spring
- storage
- java
- Amazon
- data
- redhat
- 빅데이터
- Redshift
- Today
- Total
목록big data (6)
Developer MJ
Spark Spark - 인메모리 분석방식 -> 클러스터 프로그래밍 모델은 데이터를 반복적으로 재사용하기 때문이다 - 배치, 대화식 및 스트리밍 데이터 지원 - 텍스트 및 하둡 파일 형식 지원 - HDFS, S3 및 기타 데이터베이스 데이터를 읽고 저장 가능 RDD (Resilient Distributed Datasets) - Spark 프로그래밍 모델 - 클러스터 노드 사이에 인메모리로 캐싱되는 읽기 전용 분산 객체 집합 - MapReduce의 내결함성과 데이터 지역성 그리고 확장성 유지 - 스토리지 데이터에서 RDD를 생성한 후 변환 또는 액션을 사용 - 실행가능하도록 스테이지로 구성된 DAG(Directed Acyclic Graph) 빌드 - 메모리에 DataFrames를 저장하여 I/O 최소화 -..
Apache Hadoop 및 AWS EMR Hadoop - Map, Reduce Function + HDFS - Java 기반 - Cluster -> Name Node 1개 + Data Node 3개 (default) Map-Reduce - Key-Value기반 분산 프로그래밍 프레임워크 - 대용량 데이터 세트를 병렬 분산처리 HDFS - 데이터블록 복제본을 클러스터 내 Data Node로 분산 YARN - Map-Reduce 2.0 ? - 작업 예약 및 클러스터 리소스 관리 클러스터 Master Node - Resource Manager 데몬 실행 -> 클러스터 리소스 관리 - Name Node 데몬 실행 -> 파일시스템의 네임스페이스 관리 및 클라이언트 엑세스 제어 - Core & Worker Nod..
스토리지 데이터 웨어하우스 - OLAP 성 작업 - 기존 데이터베이스 상위에서 실행가능하며, 일반적으로 데이터가 중복된 테이블을 사용 - 여러 소스의 데이터를 통합하고 일관성 있는 데이터로 관리 - 현재 데이터는 물론 이력 데이터도 관리Redshfit - 페타바이트 규모의 열 기반 데이터 웨어하우스 - SQL 작업을 병렬화 하여 대규모 분산 병렬처리 가능 리더 노드 - SQL 엔드포인트 - 메타데이터 저장 - 컴퓨팅 노드들에게 분산 쿼리 실행 명령 컴퓨팅 노드 - 로컬에 열 형식으로 데이터를 분산 저장 => 컴퓨팅 노드 간 데이터 교환 효율성을 위해 - 병렬 쿼리 실행 결과를 리더 노드에 반환 - S3, EMR, DynamoDB, SSH를 통한 데이터 로드 데이터 레이크 - 중앙 집중식 저장소에서 방대한..
스트리밍 데이터 처리 유형 배치 처리 - 유한 데이터 스트림 처리 - 연속 데이터 스트리밍 솔루션의 장점? - 처리단계와 분리되어 복수의 스트림으로 데이터를 동시에 수집하거나 병렬로 소비 가능Amazon Kinesis Firehose - 스트리밍 데이터를 캡처하고 변환하여 타겟(S3, Redshift, Elasticsearch, etc)으로 로드 - 로드 전에 배치, 압축, 암호화 가능 - 데이터를 대상 스토리지로 바로 로드하기 때문에 샤드 프로비저닝과 파티션 키가 필요없음 Streams - 데이터를 대상 스토리지로 로드하기 전에 처리 프로세스에서 사용하기 위해 샤드 프로비저닝 필요 Analytics Apache Spark Streaming - 데이터를 1초 미만 마이크로 배치로 분할 Apache Kaf..
수집 및 전송 데이터 수집 트랜잭션( 데이터베이스 읽기/쓰기) - 앱, 웹 서버 => DB 파일 - Flume, Log4j from Device => S3 스트림 - FluentD, Sqoop, Storm => Kinesis데이터 전송 Apache DistCp - HDFS에서 스토리지로 대용량 데이터를 MapReduce를 사용하여 분산방식으로 복사 Apache Sqoop - HDFS와 관계형 데이터베이스 사이에서 데이터를 전송가능 Snowball - 하루 최대 50테라 전송가능 - KMS를 통해 암호화 Snowball Edge - 100테라 로컬 스토리지 - S3 호환 엔드포인트, Lambda함수 지원 - Snowball 보다 4배 빠름 - KMS를 통해 암호화 Snowmobile - 모든 리전에서 사용..
개요 빅 데이터 - 사용자의 요구사항을 알아내기 위해 대량의 데이터를 수집하고 분석하기 위한 기술 데이터가 빅 데이터로 바뀌는 시점 ? - 수집, 저장, 구조화, 분석, 이동, 공유 등에 어려움 발생 - 속도, 볼륨, 다양성에 대한 처리 능력의 한계 도달 파이프라인 - 데이터가 유입되어 수집, 저장, 분석 및 시각화를 하여 Insight를 얻는데까지 일련의 과정 - 파이프라인에 배포하는 도구에 따라 응답시간이 상이함 수집 - Kinesis Firehose, Snowball, SQS, EC2 저장 - S3, Glacier, Kinesis Stream, RDS, DynamoDB, CloudSearch 처리 및 분석 - EMR, Lambda, Kinesis Analytics, Redshift, SageMake..