1장 하둡기초
Part 5 하둡 I/O
하둡은 데이터 I/O를 위한 프리미티브(Primitive) 내장된 기본 기능을 제공한다. 멀티테라바이트의 데이터셋을 처리할 때는 특정 내장된 기능을 잘 활용할 만한 가치가 있다. ex) 직렬화 프레임워크 디스크 기반 데이터 구조 API
5.1 데이터 무결성
5.1.1 HDFS의 데이터 무결성
5.1.2 LocalFileSystem
5.1.3 ChecksumFileSystem
5.2 압축
5.2.1 코덱
CompressionCodec을 통한 압축 및 해제 스트림
CompressionCodecFactory를 사용하여 CompressionCodec 유추하기
원시 라이브러리
5.2.2 압축과 입력 스플릿
5.2.3 맵리듀스에서 압축 사용하기
맵 출력 압축
5.3 직렬화
- 간결성
- 고속화
- 확장성
- 상호운용성