Hadoop | The Definitive Guide 18

4장 관련 프로젝트

Part 18 크런치

아파치 크런치는 맵리듀스 파이프라인을 작성하는 고수준 API다. 맵리듀스 대신 크런치를 사용하면 String이나 POJO(plain old Java obejct)와 같은 프로그래머에게 익숙한 자바 자료형. 풍부한 데이터 변환 기능, 여러 단계의 파이프라인에 집중할 수 있는 장점이 있다.(워크플로에 있는 개별 맵리듀스 잡을 직접 관리할 필요가 없다.)

18.1 예제

18.2 크런치 핵심 API

18.2.1 기본 연산자

union()
parallelDo()
groupByKey()
combineValues()

18.2.2 자료형

레코드와 튜플

18.2.3 소스와 타깃

소스에서 읽기
타깃에 쓰기
출력 파일이 이미 존재
소스와 타깃의 결합

18.2.4 함수

함수 직렬화
객체 재사용

18.2.5 실체화

PObject

18.3 파이프라인 실행

18.3.1 파이프라인 수행하기

비동기 실행
디버깅

18.3.2 파이프라인 정지하기

18.3.3 크런치 계획 조사하기

18.3.4 반복적 알고리즘

18.3.5 파이프라인 체크포인트

18.4 크런치 라이브러리

18.5 참고 도서