일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- docker
- 설치
- 자료구조
- sort
- algorithm
- Spring
- 자바
- 재귀
- Data Structure
- linux
- java
- Amazon
- 아마존
- hadoop
- big data
- storage
- Redshift
- redhat
- 스토리지
- recursive
- 빅데이터
- data
- 알고리즘
- 하둡
- 도커
- 레드햇
- 리눅스
- AWS
- 스프링
- rhcsa
- Today
- Total
목록AWS (21)
Developer MJ
페타바이트 규모의 처리와 저장을 지원하는 AWS의 완전 관리형 데이터 웨어하우징 서비스 데이터 블록이 다수의 행인 하나의 열을 저장하는 열 기반 스토리지이므로 대규모 데이터 세트의 스캔 및 복합 분석 OLAP성 쿼리에 적합. Redshift가 지원하는 압축 인코딩을 통해 데이터를 압축하여 읽기성능을 올릴 수 있다. 전통적인 데이터 처리방법은 샘플링된 데이터로 처리 프로세스를 수행했지만, 최근의 데이터 분석은 모집단 데이터가 있는 곳에서 어플리케이션을 구동하여 분석을 수행한다. Amazon Redshift 쿼리 프로세스 SQL 클라이언트 도구 쿼리 생성 -> 리더 노드에서 쿼리 구문 분석 -> 컴퓨팅 노드에서 쿼리 수행 -> 컴퓨팅 노드는 쿼리 처리결과를 리더노드로 반환 -> 리더 노드는 처리 결과를 집계..

데이터 최종 사용자가 정보에 입각한 의사 결정을 내릴 수 있도록 분석 가능한 구조화된 데이터의 중앙 리포지토리 범위용 질의를 통한 OLAP성 업무에 특화되어, 특정 값을 찾는 OLTP성 업무에 적절하지 않다. Star/Snowflake Schema의 형태를 띄며 Fact 테이블에 각 Dimension 테이블의 키 값을 적재함으로서 중복 데이터가 발생할 수 있다. 구조화하면 안되는 데이터를 DW로 밀어넣지 않고, Raw형태로 남겨두고 copy하여 사용해야 한다. 아키텍처 하단 티어는 데이터가 로드되고 저장되는 데이터베이스 서버 중간 티어는 데이터를 액세스하고 분석하는 데 사용되는 분석 엔진 상단 티어는 보고, 분석 및 데이터 마이닝 도구를 통해 결과를 제시하는 프런트 엔드 클라이언트 Data Mining ..
Spark Spark - 인메모리 분석방식 -> 클러스터 프로그래밍 모델은 데이터를 반복적으로 재사용하기 때문이다 - 배치, 대화식 및 스트리밍 데이터 지원 - 텍스트 및 하둡 파일 형식 지원 - HDFS, S3 및 기타 데이터베이스 데이터를 읽고 저장 가능 RDD (Resilient Distributed Datasets) - Spark 프로그래밍 모델 - 클러스터 노드 사이에 인메모리로 캐싱되는 읽기 전용 분산 객체 집합 - MapReduce의 내결함성과 데이터 지역성 그리고 확장성 유지 - 스토리지 데이터에서 RDD를 생성한 후 변환 또는 액션을 사용 - 실행가능하도록 스테이지로 구성된 DAG(Directed Acyclic Graph) 빌드 - 메모리에 DataFrames를 저장하여 I/O 최소화 -..
하둡 프로그래밍 프레임워크 Hive - 하둡에서 실행되는 오픈소스 방식의 SQL 유사 데이터 웨어하우스 솔루션 - 분산 스토리지에서 대용량 데이터 세트를 관리하거나 쿼리를 실행 - 배치 및 대화형 지원 Presto - 오픈소스 방식의 분산 인메모리 SQL 쿼리 엔진 - 사용가능 메모리의 양이 제한되므로 배치작업은 부적합 - Not MapReduce - 빠른 대화형 쿼리 응답 Spark - 인메모리 처리 프레임워크 - 추가 포스팅 => https://1226choi.tistory.com/50Pig - 단순한 텍스트 형식의 데이터 흐름 언어 - 배치 및 대화형 지원
Apache Hadoop 및 AWS EMR Hadoop - Map, Reduce Function + HDFS - Java 기반 - Cluster -> Name Node 1개 + Data Node 3개 (default) Map-Reduce - Key-Value기반 분산 프로그래밍 프레임워크 - 대용량 데이터 세트를 병렬 분산처리 HDFS - 데이터블록 복제본을 클러스터 내 Data Node로 분산 YARN - Map-Reduce 2.0 ? - 작업 예약 및 클러스터 리소스 관리 클러스터 Master Node - Resource Manager 데몬 실행 -> 클러스터 리소스 관리 - Name Node 데몬 실행 -> 파일시스템의 네임스페이스 관리 및 클라이언트 엑세스 제어 - Core & Worker Nod..
스토리지 데이터 웨어하우스 - OLAP 성 작업 - 기존 데이터베이스 상위에서 실행가능하며, 일반적으로 데이터가 중복된 테이블을 사용 - 여러 소스의 데이터를 통합하고 일관성 있는 데이터로 관리 - 현재 데이터는 물론 이력 데이터도 관리Redshfit - 페타바이트 규모의 열 기반 데이터 웨어하우스 - SQL 작업을 병렬화 하여 대규모 분산 병렬처리 가능 리더 노드 - SQL 엔드포인트 - 메타데이터 저장 - 컴퓨팅 노드들에게 분산 쿼리 실행 명령 컴퓨팅 노드 - 로컬에 열 형식으로 데이터를 분산 저장 => 컴퓨팅 노드 간 데이터 교환 효율성을 위해 - 병렬 쿼리 실행 결과를 리더 노드에 반환 - S3, EMR, DynamoDB, SSH를 통한 데이터 로드 데이터 레이크 - 중앙 집중식 저장소에서 방대한..