4장 관련 프로젝트
Part 20 HBase
HBase는 BDFS 기반으로 구현한 컬럼 기반 분산 데이터베이스다. HBase는 대규모 데이터셋에서 실시간으로 읽고 쓰는 랜덤 액세스가 필요할 때 사용할 수 있는 하둡 애플리케이션이다.
HBase는 BDFS 기반으로 구현한 컬럼 기반 분산 데이터베이스다. HBase는 대규모 데이터셋에서 실시간으로 읽고 쓰는 랜덤 액세스가 필요할 때 사용할 수 있는 하둡 애플리케이션이다.
아파치 스파크는 대용량 데이터 처리를 위한 클러스터 컴퓨팅 프레임워크이다. 스파크는 실행 엔진으로 맵리듀스를 사용하지 않는다. 대신 스파크는 클러스터 기반으로 작업을 실행하는 자체 분산 런타임 엔진이 있다. 스파크는 하둡과 밀접하게 통합되어 있어서 YARN 기반으로 실행할 수 있고, 하둡 파일 포맷과 HDFS 같은 기반 저장소를 지원한다.
아파치 크런치는 맵리듀스 파이프라인을 작성하는 고수준 API다. 맵리듀스 대신 크런치를 사용하면 String이나 POJO(plain old Java obejct)와 같은 프로그래머에게 익숙한 자바 자료형. 풍부한 데이터 변환 기능, 여러 단계의 파이프라인에 집중할 수 있는 장점이 있다.(워크플로에 있는 개별 맵리듀스 잡을 직접 관리할 필요가 없다.)