4장 관련 프로젝트
Part 17 하이브
SQL을 이용해서 HDFS에 저장된 대량의 데이터를 분석할 수 있도록 개발된 것이 하이브이다.
17.1 하이브 설치하기
17.1.1 하이브 쉘
17.2 예제
17.3 하이브 실행하기
17.3.1 하이브 설정하기
실행 엔진
로깅
17.3.2 하이브 서비스
- cli
- 하이브서버2
- beeline
- hwi
- jar
- 메타스토어
하이브 클라이언트
- 쓰리프트 클라이언트
- JDBC 드라이버
- ODBC 드라이버
17.3.3 메타스토어
17.4 전통적인 데이터베이스와의 비교
17.4.1 읽기 스키마와 쓰기 스키마의 비교
17.4.2 갱신, 트랜잭션, 색인
17.4.3 SQL-on-Hadoop 대안
17.5 HiveQL
17.5.1 자료형
기본형
복합형
17.5.2 연산자와 함수
형변환
17.6 테이블
17.6.1 관리 테이블과 외부 테이블
17.6.2 파티션과 버킷
버킷
17.6.3 저장 포맷
기본 저장 포맷: 구분 텍스트
바이너리 저장 포맷: 시퀀스 파일, 에이브로 데이터 파일, 파케이 파일, RCFile, ORCFile
커스텀 SerDe 사용예: RegexSerDe
저장소 제어기
17.6.4 데이터 임포트하기
INSERT
다중테이블 INSERT
CREATE TABLE…AS SELECT
17.6.5 테이블 변경하기
17.7 데이터 질의하기
17.7.1 정렬과 집계
17.7.2 맵리듀스 스크립트
17.7.3 조인
내부 조인
외부 조인
세미 조인
맵 조인
17.7.4 서브쿼리
17.7.5 뷰
17.8 사용자 정의 함수
17.8.1 UDF 작성하기
17.8.2 UDAF 작성하기
- init()
- iterate()
- terminatePartial()
- merge()
- terminate()