文章
元数据管理落地实施流程方案(增强版)
适用对象:数据治理专员、元数据平台开发、数仓工程师
核心原则:先核心后边缘、先自动后人工、先绑定后扩展
目标:6个月内实现核心业务域元数据覆盖率 ≥90%,血缘准确率 ≥95%
🧭 总体流程图(5大阶段)
[阶段1] 准备工作(治理前必做)
↓
[阶段2] 元数据采集与建模(自动+人工)
↓
[阶段3] 业务-技术语义绑定(关键!)
↓
[阶段4] 血缘构建与规则联动
↓
[阶段5] 上线监控与持续治理
📌 阶段1:准备工作(治理前必做)
✅ 输入
- 《数仓建模体系》中的核心实体清单(企业、联系人、专利等)
- 《业务域划分清单》(来自建模流程阶段1)
- Doris 集群连接信息、JDBC 权限
- 《团队建模规范.md》(命名、字段规范)
✅ 输出
- 《元数据采集范围清单.xlsx》
- 《核心字段绑定优先级表.xlsx》
- 《元数据平台接入方案.md》
🛠 操作步骤
- 划定采集范围:
- 必采:ODS → ADS 全链路表(按业务域筛选)
- 优先:DWD/DWT/ADS 核心表(如
dwd_company_base_full
)
- 识别核心字段:
- 高频使用字段(
company_name
,status_code
) - 敏感字段(
phone
,id_card
) - 码值字段(
tag_codes
,source_codes
)
- 高频使用字段(
- 制定绑定策略:
- 强绑定:核心业务字段(必须关联业务术语)
- 弱绑定:技术字段(如
etl_time
,可豁免)
⚠️ 避坑指南:
❌ 不要试图“全量采集所有字段” → 资源浪费、维护成本高
✅ 聚焦“业务可解释、质量可校验、血缘可追踪”的字段
🧱 阶段2:元数据采集与建模
✅ 目标
- 自动采集技术元数据(表结构、字段类型)
- 人工补全管理元数据(owner、data_level)
- 构建元模型(库/表/字段/术语/血缘)
🔧 操作步骤(4步法)
步骤 | 任务 | 交付物 |
---|---|---|
1. 自动采集 | 通过 JDBC 扫描 Doris,获取表/字段结构 | technical_metadata_raw.json |
2. 存储建模 | 写入元数据仓库(按《01元数据管理.docx》模型) | table_store ,field_store 表 |
3. 补充管理属性 | 填写 owner、data_level(可从建模文档继承) | 《管理属性补全表.xlsx》 |
4. 标记继承关系 | 对 DWD/DWS/DWT 字段标记is_inherited=1 +source_field_id | 元数据平台自动识别 |
💡 增强点:
- 利用《建模工具包》中的《DWD字段筛选清单.xlsx》反向生成“应绑定字段清单”
- 敏感字段自动打标
data_level = "L3"
(依据《脱敏策略说明》)
🔗 阶段3:业务-技术语义绑定(治理核心!)
✅ 目标
- 每个核心字段关联一个业务术语(如
company_name
→ “企业名称”) - 业务术语定义清晰,含规则(如“有效客户 = 近1年有交易”)
🔧 操作步骤
- 复用建模成果:
- 从《清洗规则表.xlsx》提取业务规则 → 填入
d_rule
/q_rule
- 从《码值字典文档》提取枚举值 → 填入
definition
- 从《清洗规则表.xlsx》提取业务规则 → 填入
- 人工对齐业务:
- 与业务方确认术语定义(避免“客户”多义)
- 在元数据平台中创建业务术语(按《01元数据管理》模型)
- 批量绑定:
- 通过
field_id ↔ term_id
外键关联 - 支持“一词多义”(同一术语在不同业务过程有不同定义)
- 通过
✅ 交付物:
- 《业务术语定义清单.xlsx》
- 元数据平台中“字段-术语”绑定关系
🕸 阶段4:血缘构建与规则联动
✅ 目标
- 构建 L1(表级) + L2(字段级)血缘
- 将治理规则绑定到字段,触发质量检查
🔧 操作步骤
- 血缘解析:
- 从 DolphinScheduler 任务 SQL 中解析来源表/字段
- 写入
table_lineage
/field_lineage
表
- 规则绑定:
- 基于元数据自动推荐规则(如
phone
→ “手机号格式校验”) - 人工确认后写入《02治理规则管理》的
rule_binding
表
- 基于元数据自动推荐规则(如
- 联动质量:
- 调度任务自动执行规则(按《03数据质量管理》流程)
- 问题数据生成工单,闭环处理
📌 关键检查:
- 血缘是否覆盖
dwd → dwt_enhanced → ads
链路? - 码值字段是否绑定“枚举值合规率=100%”规则?
🚀 阶段5:上线监控与持续治理
✅ 上线 Checklist
- 元数据采集任务配置(每日增量)
- 核心字段绑定率 ≥90%
- 血缘图谱可可视化(支持影响分析)
- 质量规则已生效(空值率、枚举值等)
- 通知下游:元数据平台 URL、使用指南
📊 监控指标
指标 | 阈值 | 告警方式 |
---|---|---|
元数据采集失败率 | >0% | 企业微信 |
核心字段未绑定率 | >10% | 邮件 |
血缘缺失率(DWD→ADS) | >5% | 企业微信 |
规则执行失败率 | >0% | 短信 |
🔄 持续治理机制
- 月度审计:检查术语定义是否过时、规则是否失效
- 变更联动:当建模新增字段 → 自动触发元数据补全流程
- 问题反哺:质量工单闭环后,优化元数据定义或规则
💡 总结:新人也能做好元数据治理
- 有流程:5阶段、4步法,步步清晰
- 有模板:采集清单、绑定表、Checklist,直接套用
- 有联动:与建模、规则、质量无缝衔接
- 有重点:先核心字段,后边缘;先自动采集,后人工补全
- 有闭环:从采集 → 绑定 → 血缘 → 规则 → 质量 → 优化
📣 口诀(新人必背):
元数据要先采准,核心字段强绑定;
业务术语定规则,血缘清晰可追踪;
规则质量紧联动,治理闭环靠流程!
你可以将此方案保存为 《元数据管理落地实施流程方案(增强版).md》,作为《01元数据管理.docx》的配套执行手册,与你的建模流程方案并列使用,形成“建模有流程,治理也有流程”的完整体系