数据治理, 精选文章

元数据管理落地实施流程方案(增强版)

适用对象:数据治理专员、元数据平台开发、数仓工程师
核心原则先核心后边缘、先自动后人工、先绑定后扩展
目标:6个月内实现核心业务域元数据覆盖率 ≥90%,血缘准确率 ≥95%

🧭 总体流程图(5大阶段)

[阶段1] 准备工作(治理前必做)

[阶段2] 元数据采集与建模(自动+人工)

[阶段3] 业务-技术语义绑定(关键!)

[阶段4] 血缘构建与规则联动

[阶段5] 上线监控与持续治理

📌 阶段1:准备工作(治理前必做)

✅ 输入

  • 《数仓建模体系》中的核心实体清单(企业、联系人、专利等)
  • 《业务域划分清单》(来自建模流程阶段1)
  • Doris 集群连接信息、JDBC 权限
  • 《团队建模规范.md》(命名、字段规范)

✅ 输出

  • 《元数据采集范围清单.xlsx》
  • 《核心字段绑定优先级表.xlsx》
  • 《元数据平台接入方案.md》

🛠 操作步骤

  1. 划定采集范围
    • 必采:ODS → ADS 全链路表(按业务域筛选)
    • 优先:DWD/DWT/ADS 核心表(如 dwd_company_base_full
  2. 识别核心字段
    • 高频使用字段(company_name, status_code
    • 敏感字段(phone, id_card
    • 码值字段(tag_codes, source_codes
  3. 制定绑定策略
    • 强绑定:核心业务字段(必须关联业务术语)
    • 弱绑定:技术字段(如 etl_time,可豁免)

⚠️ 避坑指南
❌ 不要试图“全量采集所有字段” → 资源浪费、维护成本高
聚焦“业务可解释、质量可校验、血缘可追踪”的字段

🧱 阶段2:元数据采集与建模

✅ 目标

  • 自动采集技术元数据(表结构、字段类型)
  • 人工补全管理元数据(owner、data_level)
  • 构建元模型(库/表/字段/术语/血缘)

🔧 操作步骤(4步法)

步骤任务交付物
1. 自动采集通过 JDBC 扫描 Doris,获取表/字段结构technical_metadata_raw.json
2. 存储建模写入元数据仓库(按《01元数据管理.docx》模型)table_store,field_store
3. 补充管理属性填写 owner、data_level(可从建模文档继承)《管理属性补全表.xlsx》
4. 标记继承关系对 DWD/DWS/DWT 字段标记is_inherited=1+source_field_id元数据平台自动识别

💡 增强点

  • 利用《建模工具包》中的《DWD字段筛选清单.xlsx》反向生成“应绑定字段清单”
  • 敏感字段自动打标 data_level = "L3"(依据《脱敏策略说明》)

🔗 阶段3:业务-技术语义绑定(治理核心!)

✅ 目标

  • 每个核心字段关联一个业务术语(如 company_name → “企业名称”)
  • 业务术语定义清晰,含规则(如“有效客户 = 近1年有交易”)

🔧 操作步骤

  1. 复用建模成果
    • 从《清洗规则表.xlsx》提取业务规则 → 填入 d_rule / q_rule
    • 从《码值字典文档》提取枚举值 → 填入 definition
  2. 人工对齐业务
    • 与业务方确认术语定义(避免“客户”多义)
    • 在元数据平台中创建业务术语(按《01元数据管理》模型)
  3. 批量绑定
    • 通过 field_id ↔ term_id 外键关联
    • 支持“一词多义”(同一术语在不同业务过程有不同定义)

交付物

  • 《业务术语定义清单.xlsx》
  • 元数据平台中“字段-术语”绑定关系

🕸 阶段4:血缘构建与规则联动

✅ 目标

  • 构建 L1(表级) + L2(字段级)血缘
  • 将治理规则绑定到字段,触发质量检查

🔧 操作步骤

  1. 血缘解析
    • 从 DolphinScheduler 任务 SQL 中解析来源表/字段
    • 写入 table_lineage / field_lineage
  2. 规则绑定
    • 基于元数据自动推荐规则(如 phone → “手机号格式校验”)
    • 人工确认后写入《02治理规则管理》的 rule_binding
  3. 联动质量
    • 调度任务自动执行规则(按《03数据质量管理》流程)
    • 问题数据生成工单,闭环处理

📌 关键检查

  • 血缘是否覆盖 dwd → dwt_enhanced → ads 链路?
  • 码值字段是否绑定“枚举值合规率=100%”规则?

🚀 阶段5:上线监控与持续治理

✅ 上线 Checklist

  • 元数据采集任务配置(每日增量)
  • 核心字段绑定率 ≥90%
  • 血缘图谱可可视化(支持影响分析)
  • 质量规则已生效(空值率、枚举值等)
  • 通知下游:元数据平台 URL、使用指南

📊 监控指标

指标阈值告警方式
元数据采集失败率>0%企业微信
核心字段未绑定率>10%邮件
血缘缺失率(DWD→ADS)>5%企业微信
规则执行失败率>0%短信

🔄 持续治理机制

  • 月度审计:检查术语定义是否过时、规则是否失效
  • 变更联动:当建模新增字段 → 自动触发元数据补全流程
  • 问题反哺:质量工单闭环后,优化元数据定义或规则

💡 总结:新人也能做好元数据治理

  • 有流程:5阶段、4步法,步步清晰
  • 有模板:采集清单、绑定表、Checklist,直接套用
  • 有联动:与建模、规则、质量无缝衔接
  • 有重点:先核心字段,后边缘;先自动采集,后人工补全
  • 有闭环:从采集 → 绑定 → 血缘 → 规则 → 质量 → 优化

📣 口诀(新人必背)
元数据要先采准,核心字段强绑定;
业务术语定规则,血缘清晰可追踪;
规则质量紧联动,治理闭环靠流程!

你可以将此方案保存为 《元数据管理落地实施流程方案(增强版).md》,作为《01元数据管理.docx》的配套执行手册,与你的建模流程方案并列使用,形成“建模有流程,治理也有流程”的完整体系