4장 관련 프로젝트
Part 15 스쿱
HDFS 외부 스토리지 저장소에 있는 데이터를 접근해 옮길 수 있도록 해주는 스쿱의 작동 방식과 데이터 처리 파이프라인에서 스쿱을 활용하는 방법을 살펴보자.
HDFS 외부 스토리지 저장소에 있는 데이터를 접근해 옮길 수 있도록 해주는 스쿱의 작동 방식과 데이터 처리 파이프라인에서 스쿱을 활용하는 방법을 살펴보자.
하둡에 저장되어 있지 않은 데이터를 하둡으로 수집, 저장, 분석하려는 데이터의 스트림을 만드는 시스템으로 아파치 플룸(Apache Flume)을 생각할 수 있다.
아파치 파케이(Apache Parquet)는 중첩된 데이터를 효율적으로 저장할 수 있는 컬럼 기준 저장 포맷으로 파일 크기와 쿼리 성능 측면 모두 효율성이 높은 장점이 있다.
아파치 에이브로(Apache Avro)는 특정 언어에 종속되지 않는 언어 중립적 데이터 직렬화 시스템이다. (여러 언어를 지원하기 때문)