[AWS] Big Data - 스토리지

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

Developer MJ

[AWS] Big Data - 스토리지 본문

AWS

[AWS] Big Data - 스토리지

MIN JOON 2019. 2. 15. 11:04

스토리지

데이터 웨어하우스
- OLAP 성 작업
- 기존 데이터베이스 상위에서 실행가능하며, 일반적으로 데이터가 중복된 테이블을 사용
- 여러 소스의 데이터를 통합하고 일관성 있는 데이터로 관리
- 현재 데이터는 물론 이력 데이터도 관리
Redshfit
- 페타바이트 규모의 열 기반 데이터 웨어하우스
- SQL 작업을 병렬화 하여 대규모 분산 병렬처리 가능
- 리더 노드
  - SQL 엔드포인트
  - 메타데이터 저장
  - 컴퓨팅 노드들에게 분산 쿼리 실행 명령
- 컴퓨팅 노드
  - 로컬에 열 형식으로 데이터를 분산 저장 => 컴퓨팅 노드 간 데이터 교환 효율성을 위해
  - 병렬 쿼리 실행 결과를 리더 노드에 반환
  - S3, EMR, DynamoDB, SSH를 통한 데이터 로드
데이터 레이크
- 중앙 집중식 저장소에서 방대한 볼륨과 다양한 유형의 데이터를 저장하고 분석하는 방법
Athena
- 데이터 로드 및 수집하지 않고 S3에서 직접 쿼리를 실행하는 읽기 위주의 스키마를 가짐
- 서버리스 아키텍처로 인프라 관리 불필요
- SQL 쿼리용 인메모리 분산 쿼리 엔진인 Presto 사용
- 사용 사례
- - S3를 데이터 레이크로 사용
    - 임시 쿼리를 위한 Athena *
    - 이력 분석을 위한 Redshift
    - ETL 및 분석을 위한 EMR
    - 데이터 시각화를 위한 QuickSight
  - Glue와 통합
    - 스키마 및 파티션 자동인식
    - 통합 메타데이터 저장소
- 테이블
  - 데이터 정의 문(DDL)은 Hive로 작성
- 파티션
  - 열을 기준으로 한 파티션 분할
  - 기본적으로 시간을 기준으로 세분화
  - 쿼리 시 시간을 조건으로 파티션들 중에서 조건을 만족하는 것만 검색하도록 스캔 데이터 크기 제한

저작자표시 비영리 변경금지

'AWS' 카테고리의 다른 글

[AWS] Big Data - 하둡 프로그래밍 프레임워크 (0)	2019.02.15
[AWS] Big Data - Hadoop & EMR (0)	2019.02.15
[AWS] Big Data - 스트리밍 (0)	2019.02.13
[AWS] Big Data - 데이터 수집 및 전송 (0)	2019.02.13
[AWS] Big Data - 개요 (0)	2019.02.13

'AWS' Related Articles

Developer MJ

[AWS] Big Data - 스토리지 본문

[AWS] Big Data - 스토리지

'AWS' 카테고리의 다른 글

티스토리툴바