Architecting Modern Data Platforms 16

16장 공개형 클라우드 솔루션

  • 아마존 웹 서비스 (AWS)
  • 마이크로소프트 애저(AZure)
  • 구글 클라우드 플랫폼(GCP)

반드시 알아둘 것들

  • 수명주기 모델
  • 스토리지
  • 고가용성
  • 자동화
  • 보안

클라우드 제공사

AWS
AWS 인스턴스 종류
  • 컴퓨트 최적화 인스턴스
  • 스토리지 최적화 인스턴스
  • 메모리 최적화 인스턴스
  • 고속 컴퓨팅 인스턴스
AWS 스토리지 옵션
  • 엘라스틱 블록 스토리지(EBS)
  • S3
  • 인스턴스(단기) 스토리지
아마존 엘라스틱 맵리듀스(EMR)
  • 맵리듀스/얀
  • 하이브/테즈
  • HBase
  • 프레스토
  • 스파크
주의사항 및 서비스 제한
마이크로소프트 애저
애저 인스턴스 종류
  • 범용 가상 머신
  • 컴퓨트 최적화 가상 머신
  • 메모리 최적화 가상 머신
  • 스토리지 최적화 가상 머신
  • GPU 최적화 가상 머신
애저 스토리지 옵션
  • 로컬 임시 스토리지
  • 애저 블롭 스토리지
  • 디스크 스토리지
  • 애저 데이터 레이크 스토리지
HD인사이트
주의사항 및 서비스 제한
구글 클라우드 플랫폼
인스턴스 종류
  • 고성능 CPU 머신
  • 표준 머신
  • 대용량 메모리 머신
스토리지 옵션
  • 퍼시스턴트 디스크
  • 로컬 SSD
  • 구글 클라우드 스토리지(GCS)
클라우드 데이터프록
주의사항과 서비스 제한

클러스터 구현

인스턴스
  • 가상CPU당 2~3GB 메모리
  • 가상CPU당 4~5GB
  • 가상CPU당 6~8GB
  • 가상CPU당 10~12GB
CPU 집약적 인스턴스
균현 인스턴스
메모리 집약적 인스턴스
인스턴스 요약
스토리지와 수명주기 모델
중단 가능한 클러스터
일회성 클러스터
  • AWS
  • 애저
  • GCP
스티키 클러스터
  • AWS
  • 애저
  • GCP
스토리지 호환성
스토리지와 수명주기 요약
  • AWS
  • 애저
  • GCP
네트워크 아키텍처
  • AWS
  • 애저
  • GCP
고가용성
고가용성에 대한 요구사항
컴퓨트 가용성
  • 데이터 공존
  • 마스터 공존
  • 대형 인스턴스를 사용한다
  • 동일한 역할에 다른 인스턴스 종류를 사용한다
  • 전용 호스트를 사용한다
  • 장애 도메인을 사용한다
데이터 가용성
네트워크 가용성
서비스 가용성