Hadoop | The Definitive Guide 17

Posted on 2021-03-31 | In PRODUCT

4장 관련 프로젝트

Part 17 하이브

SQL을 이용해서 HDFS에 저장된 대량의 데이터를 분석할 수 있도록 개발된 것이 하이브이다.

17.1 하이브 설치하기

17.1.1 하이브 쉘

17.2 예제

17.3 하이브 실행하기

17.3.1 하이브 설정하기

실행 엔진

로깅

17.3.2 하이브 서비스

cli
하이브서버2
beeline
hwi
jar
메타스토어

하이브 클라이언트

쓰리프트 클라이언트
JDBC 드라이버
ODBC 드라이버

17.3.3 메타스토어

17.4 전통적인 데이터베이스와의 비교

17.4.1 읽기 스키마와 쓰기 스키마의 비교

17.4.2 갱신, 트랜잭션, 색인

17.4.3 SQL-on-Hadoop 대안

17.5 HiveQL

17.5.1 자료형

기본형

복합형

17.5.2 연산자와 함수

형변환

17.6 테이블

17.6.1 관리 테이블과 외부 테이블

17.6.2 파티션과 버킷

버킷

17.6.3 저장 포맷

기본 저장 포맷: 구분 텍스트

바이너리 저장 포맷: 시퀀스 파일, 에이브로 데이터 파일, 파케이 파일, RCFile, ORCFile

커스텀 SerDe 사용예: RegexSerDe

저장소 제어기

17.6.4 데이터 임포트하기

INSERT

다중테이블 INSERT

CREATE TABLE…AS SELECT

17.6.5 테이블 변경하기

17.7 데이터 질의하기

17.7.1 정렬과 집계

17.7.2 맵리듀스 스크립트

17.7.3 조인

내부 조인

외부 조인

세미 조인

맵 조인

17.7.4 서브쿼리

17.7.5 뷰

17.8 사용자 정의 함수

17.8.1 UDF 작성하기

17.8.2 UDAF 작성하기

init()
iterate()
terminatePartial()
merge()
terminate()

매우 복잡한 UDAF

17.9 참고 도서