当前位置：首页 > 行业动态 > 正文

Hive数据仓库基础知识

Hive是基于Hadoop的数据仓库，支持SQL查询，用于批量处理分析，数据存储于HDFS，适用于离线数据分析与BI场景

Hive数据仓库基础知识详解

Hive是基于Hadoop的数据仓库工具，专为大规模数据处理设计，提供类似SQL的查询语言（Hive QL），其核心特点是将SQL转换为MapReduce任务，依赖HDFS存储数据，并通过元数据服务（MetaStore）管理表结构。

核心特性：

组件	功能
CLI（命令行）	提交查询、管理Hive元数据。
Driver	编译Hive QL为执行计划（如MapReduce/Tez/Spark），协调任务执行。
MetaStore	存储数据库、表、分区等元数据，通常依赖外部数据库（如MySQL）。
Execution Engine	执行引擎（如MapReduce、Tez、Spark），决定任务运行方式。
HDFS	底层存储系统，存储实际数据（如文本、ORC、Parquet等格式）。

环境要求：
- Hadoop集群（HDFS + YARN）。
- JDK 1.8+、Maven（可选）。
- 数据库（如MySQL）用于MetaStore。
关键配置：
- hive-site.xml：配置MetaStore连接、JDBC驱动、执行引擎（如hive.execution.engine=tez）。
- hive-env.sh：设置Java环境变量。

初始化MetaStore：

CREATE DATABASE IF NOT EXISTS default;
USE default;

创建数据库与表：

CREATE DATABASE db_name;
USE db_name;
CREATE TABLE user_info (
  id BIGINT,
  name STRING,
  age INT
) STORED AS ORC; -支持TEXT/ORC/PARQUET等格式

加载数据：

从本地文件系统加载：

LOAD DATA LOCAL INPATH '/path/to/data' INTO TABLE user_info;

从HDFS加载：

LOAD DATA INPATH '/hdfs/path/data' INTO TABLE user_info;

查询与函数：
- 基础查询：
```
SELECT  FROM user_info WHERE age > 30;
```
- 内置函数：
  - 聚合函数：COUNT(), SUM(), AVG()。
  - 字符串函数：concat(), substr()。
  - 窗口函数：ROW_NUMBER() OVER (PARTITION BY ...)。

优化方向	具体方法
分区（Partition）	按业务字段（如日期、地区）分区，减少全表扫描。
分桶（Bucket）	将数据随机分配到桶中，提升JOIN效率（需结合`CLUSTERED BY`）。
文件格式	使用列式存储（ORC/Parquet），压缩数据并支持投影推送（谓词下推）。
索引	创建Compacted/Bitmap索引加速特定字段查询。
并行参数	调整`mapreduce.job.reduces`、`hive.exec.parallel`等参数提升并发度。