当前位置：首页 > 行业动态 > 正文

datahub数据类型

admin
行业动态
2025-04-12
6

DataHub是一种数据管理平台，支持多种数据类型，包括数据集、表格、仪表板、数据管道、标签及元数据等，其核心功能覆盖结构化数据存储、可视化分析、流程自动化及协作管理，帮助用户实现高效数据治理、跨团队协作与实时监控，提升企业数据资产的可发现性和可用性。

在数据管理领域，理解平台支持的数据类型是构建高效数据生态系统的关键，DataHub作为当前主流的元数据管理工具，其数据类型设计体现了对现代企业需求的深度洞察，以下内容基于DataHub官方技术文档及实际应用场景整理,为从业者提供专业参考。

核心数据类型体系
DataHub通过实体（Entity）模型构建数据类型框架，每个实体代表一类元数据对象,主要实体类型包括：

数据集（Dataset）

结构化数据表（Tables）：支持关系型数据库（MySQL/Oracle等）、数据仓库（Snowflake/Redshift）
文件存储（Filesets）：包含HDFS目录、S3存储桶等非结构化数据载体
流式数据（Streams）：Kafka Topic、Kinesis Stream等实时数据管道

数据资产（Data Assets）

机器学习模型（ML Models）：TensorFlow、PyTorch等框架生成的模型文件
仪表盘（Dashboards）：Tableau、Looker等BI工具产物
数据流水线（Pipelines）：Airflow DAG、Spark作业等加工逻辑

元数据扩展类型
通过Schema Registry机制,DataHub支持用户自定义类型扩展：

datahub数据类型第1张

技术元数据

字段级血缘（Column Lineage）
分区信息（Partition Spec）
存储格式（Parquet/ORC/AVRO）

业务元数据

数据域（Domain）
术语表（Glossary Terms）
数据质量规则（Data Quality Rules）

关系型数据类型
通过元数据图谱（Metadata Graph）建立关联：

关系类型	说明	示例场景
血缘关系	数据加工链路可视化	报表字段溯源到原始表
归属关系	资产组织架构映射	表所属数据库→集群→部门
使用关系	数据消费追踪	BI看板→SQL查询→底层表

数据类型选择建议

结构化优先原则
建议将核心业务数据建模为结构化数据集，便于实施数据治理（Data Governance）和访问控制（Access Control）
动态扩展考量
对于实验性数据资产，建议采用半结构化（JSON Schema）或非结构化（Fileset）类型，保留灵活演进空间
元数据完整度
关键业务表应包含至少三层元数据：

技术属性（存储格式/分区方式）
业务属性（负责人/敏感等级）
运营属性（访问频次/存储成本）

技术演进趋势
2024年DataHub新增支持的特征类型显示：

向量数据库（VectorDB）嵌入类型
LLM模型元数据标准（Model Cards）
实时数据血缘（Streaming Lineage）

这些演进反映出数据平台正在向AI就绪（AI-Ready）架构迈进，数据类型体系逐步覆盖从传统结构化数据到新兴AI资产的完整生命周期管理。
来源：*

DataHub官方文档（2024年11月版）
ACM数据管理国际会议论文《Metadata Architecture in Modern Data Stack》
Gartner《2024数据管理技术成熟度报告》

datahub数据类型大数据管理数据架构

上一篇

安卓图片上的文字如何识别

下一篇

选择高防服务器的几个重要参数