← 返回博客

OpenMetadata 深度解析:开源元数据平台

技术深度

项目地址:github.com/open-metadata/OpenMetadata | 13.8K Stars | Apache 2.0 协议

一、OpenMetadata 是什么?

OpenMetadata 是一个开源、统一的元数据平台,为数据发现、数据可观测性和数据治理而设计。它提供了一个中央元数据仓库,支持列级血缘追踪和团队协作。

官方描述:“A unified metadata platform for data discovery, data observability, and data governance.”

简而言之:如果你有大量数据资产(表、仪表盘、管道等),需要一个地方来组织、搜索、理解和管理它们——这就是 OpenMetadata 做的事情。

核心亮点速览

特性说明
统一元数据仓库连接数据资产、用户、工具产生的元数据
84+ 连接器覆盖数据仓库、数据库、仪表盘、消息系统、管道等
列级血缘字段级别的数据血缘追踪,支持手动编辑
数据质量无代码质量测试,交互式结果面板
数据治理域、数据产品、标签、角色权限控制
数据可观测性数据新鲜度、体积、质量、延迟指标
协作事件通知、告警、公告、对话线程
SSO + RBAC单点登录 + 基于角色的访问控制
205 个版本持续迭代,最新 v1.12.6

二、架构设计

OpenMetadata 由四大核心组件构成:

1. 元数据 Schema(Metadata Schemas)

2. 元数据存储(Metadata Store)

3. 元数据 API(Metadata APIs)

4. 摄取框架(Ingestion Framework)

数据源 ─┐
数据库 ─┤
仪表盘 ─┼── 摄取框架 ── 元数据 API ── 元数据存储 ── UI
管道 ───┤                              │
消息系统 ┘                       ┌─────┴──────┐
                           数据发现  数据质量  数据治理

三、功能矩阵

3.1 数据发现

功能说明
搜索关键词搜索、关联查询、高级过滤
浏览按表、主题、仪表盘、管道、服务分类浏览
数据字典字段定义、数据类型、描述信息

3.2 数据血缘

3.3 数据质量

3.4 数据治理

功能说明
域(Domains)按业务领域组织数据资产
数据产品定义和发布数据产品
标签分类基于标签和术语的自动分类
Owner 管理数据资产的负责人和干系人
RBAC基于角色的访问控制
SSO单点登录集成

3.5 数据可观测性

3.6 协作


四、84+ 连接器

OpenMetadata 的摄取框架支持连接各种数据源,覆盖:

类别示例
数据仓库Snowflake、BigQuery、Redshift、ClickHouse
数据库MySQL、PostgreSQL、Oracle、SQL Server、MongoDB
数据湖Delta Lake、Apache Iceberg、Hudi
仪表盘Metabase、Superset、Tableau、PowerBI、Redash
消息系统Kafka、Redpanda
管道Airflow、dbt、Fivetran、Nifi
ML 平台MLflow、SageMaker
存储S3、ADLS、GCS
对象存储MinIO

五、快速安装

Docker 部署(推荐)

# 克隆仓库
git clone https://github.com/open-metadata/OpenMetadata.git
cd OpenMetadata/docker

# 启动所有服务
docker-compose up -d

# 访问 UI
open http://localhost:8585

Kubernetes 部署

通过 OpenMetadata Kubernetes Operator 部署到 K8s 集群:

# 使用 Helm Chart
helm repo add open-metadata https://helm.open-metadata.org
helm install openmetadata open-metadata/openmetadata

官方沙箱

无需安装,直接体验:sandbox.open-metadata.org


六、技术栈

层级技术选型
前端TypeScript(43.6%)
后端Java(34.6%)
数据摄取Python(19.8%)
构建Maven + Yarn + Makefile
容器Docker + Kubernetes Operator
搜索Elasticsearch(内部集成)
数据库MySQL / PostgreSQL(元数据存储)
调度Airflow(摄取管道调度)
MCPModel Context Protocol 支持

七、与其他元数据平台对比

维度OpenMetadataApache AtlasAmundsenDataHub
开源协议Apache 2.0Apache 2.0Apache 2.0Apache 2.0
Stars13.8K5.0K4.4K10.2K
连接器数量84+有限中等丰富
列级血缘✅ 原生
数据质量✅ 内置无代码测试
数据可观测性✅ 内置指标
治理✅ 域 + 数据产品
无代码测试
UI 体验现代化传统简洁现代化
MCP 支持✅ 原生

八、适用场景

数据团队

数据工程师

数据治理团队

平台工程师


九、社区与生态

资源链接
官网open-metadata.org
文档docs.open-metadata.org
Slackslack.open-metadata.org
沙箱体验sandbox.open-metadata.org
发布版本205 个 release,最新 v1.12.6

十、总结

OpenMetadata 是目前最活跃的开源元数据平台之一(13.8K Stars)。它以统一元数据仓库为核心,覆盖了数据发现、血缘追踪、质量监控、治理合规、可观测性和团队协作的完整链路。

84+ 连接器、列级血缘、无代码数据质量测试、MCP 协议支持——这些能力使其在大数据生态中具有极强的集成能力。对于正在建设数据平台、需要元数据管理工具的团队来说,OpenMetadata 是一个值得深入评估的开源方案。

快速开始:

git clone https://github.com/open-metadata/OpenMetadata.git
cd OpenMetadata/docker
docker-compose up -d
# 访问 http://localhost:8585

技术栈:TypeScript 44% + Java 35% + Python 20% + Elasticsearch | 协议:Apache 2.0

最新版本:v1.12.6(2026-04-22)| 在线体验:sandbox.open-metadata.org