数据治理, 精选文章

数据治理规则管理落地实施流程方案(增强版)

适用对象:数据治理专员、数据开发、业务负责人
技术依赖:元数据平台、规则引擎、调度系统(如 DolphinScheduler)
核心原则规则源于元数据,服务于质量,闭环于业务
目标:3个月内实现核心字段 100% 覆盖完整性/有效性/一致性规则,问题规则闭环率 ≥90%

🧭 总体流程图(5大阶段)

[阶段1] 规则需求准备(治理前必做)

[阶段2] 规则识别与分类(基于元数据)

[阶段3] 规则配置与绑定(人工+自动)

[阶段4] 规则执行与监控(集成调度)

[阶段5] 规则优化与闭环(持续治理)

📌 阶段1:规则需求准备(治理前必做)

✅ 输入

  • 《01元数据管理.docx》中的核心字段清单(如 company_name, status_code
  • 《团队建模规范.md》中的字段标准(如 is_valid 必为 0/1)
  • 业务需求文档(如“销售导出必须含有效联系方式”)
  • 《数据治理方案.docx》中的治理优先级(企业域 > 联系人域)

✅ 输出

  • 《规则覆盖范围清单.xlsx》
  • 《规则优先级矩阵.xlsx》
  • 《敏感字段规则清单.xlsx》

🛠 操作步骤

  1. 划定规则范围
    • 必配规则字段:DWD/DWT/ADS 核心字段(如主键、码值、敏感字段)
    • 豁免字段:技术字段(etl_time)、中间计算字段
  2. 识别规则类型(按《02数据治理规则管理.docx》):
    • 完整性:非空、记录完整
    • 有效性:枚举值、格式(手机号、邮箱)
    • 一致性:跨表主外键、码值映射一致性
  3. 制定优先级
    • P0:主键、码值字段(如 status_code
    • P1:业务高频字段(如 company_name
    • P2:辅助字段(如 industry_name

⚠️ 避坑指南
❌ 不要为所有字段配规则 → 资源浪费、告警疲劳
聚焦“影响业务决策”的字段

🧱 阶段2:规则识别与分类(基于元数据)

✅ 目标

  • 从元数据中自动推导基础规则
  • 人工补充业务规则

🔧 操作步骤(4步法)

步骤任务交付物
1. 技术元数据推导从字段is_nullable=0→ 自动生成“非空规则”自动规则建议清单
2. 业务元数据提取d_rule/q_rule提取逻辑(如“status_code ∈ {ACTIVE, INVALID}”)业务规则映射表
3. 码值字典校验dim_status提取枚举值 → 生成“有效性-枚举值”规则枚举值规则库
4. 敏感字段规则data_level=L3→ 强制绑定“脱敏后格式校验”敏感字段规则清单

💡 增强点

  • 利用《数仓字典表管理》中的 dim_statusdim_code_mapping自动生成码值合规规则
  • 从《建模工具包》的《清洗规则表.xlsx》反向生成规则表达式

🔗 阶段3:规则配置与绑定

✅ 目标

  • 在元数据平台中完成规则创建与字段绑定
  • 支持版本化、审批流

🔧 操作步骤

  1. 规则创建
    • 类型:选择“非空”“枚举值”“正则格式”等
    • 表达式:填写 SQL/正则(如 status_code IN ('ACTIVE', 'INVALID')
    • 错误提示:“状态码必须为 ACTIVE/INVALID”
  2. 规则绑定
    • 目标:选择字段(如 dwd_company_base_full.status_code
    • 生效状态:默认启用
  3. 审批发布
    • 提交业务负责人审核(如销售确认“有效客户定义”)
    • 元数据平台记录版本(v1.0 → v1.1)

交付物

  • 《规则绑定清单.xlsx》
  • 元数据平台中的规则-字段绑定关系

🚀 阶段4:规则执行与监控

✅ 目标

  • 规则自动调度执行
  • 问题数据生成质量工单

🔧 操作步骤

  1. 调度配置
    • 周期:每日凌晨(与 ETL 串行)
    • 任务:调用规则引擎执行 SQL 校验
  2. 结果记录
    • 写入《03数据质量管理.docx》中的 调度执行结果表
    • 记录通过率、问题示例(如 { "status_code": "DELETED" }
  3. 告警推送
    • P0 规则失败 → 企业微信 + 短信
    • P1/P2 → 邮件 + 质量看板

📌 关键检查

  • 码值字段是否 100% 合规?
  • 敏感字段是否脱敏后仍符合格式?

🔄 阶段5:规则优化与闭环

✅ 优化触发条件

  • 业务逻辑变更(如新增状态 ARCHIVED
  • 规则误报率高(如手机号正则不兼容新号段)
  • 数据质量问题反复出现

🔧 闭环流程

  1. 问题归因(来自《03数据质量管理》):
    • 根因分类:METADATA_DEFECT / RULE_DEFECT / BUSINESS_CHANGE
  2. 规则优化
    • 新增枚举值:status_code 增加 'ARCHIVED'
    • 调整正则:手机号支持 19x 号段
  3. 元数据同步
    • 更新 dim_status
    • 同步 d_rule / q_rule
  4. 版本发布
    • 走审批流程 → 发布 v2.0 规则

交付物

  • 《规则优化记录表.xlsx》
  • 质量评分提升报告(如“码值合规率从 98% → 100%”)

💡 总结:新人也能做好规则治理

  • 有流程:5阶段、4步法,步步清晰
  • 有模板:规则清单、优先级矩阵、优化记录,直接套用
  • 有联动:与元数据、建模、质量无缝衔接
  • 有重点:先核心字段,后边缘;先自动推导,后人工补充
  • 有闭环:从规则创建 → 执行 → 问题 → 优化 → 元数据更新

📣 口诀(新人必背)
规则源于元数据,三类覆盖保基础;
码值敏感重点管,执行告警要闭环;
业务变更及时调,治理规则才有效!

你可以将此方案保存为 《数据治理规则管理落地实施流程方案(增强版).md》,作为《02数据治理规则管理.docx》的配套执行手册,与你的建模流程方案并列使用,形成:

  • 建模有流程 → 《数仓建模落地实施流程方案》
  • 元数据有流程 → 《元数据管理落地实施流程方案》
  • 规则有流程 → 本方案
  • 质量有流程 → 《03数据质量管理.docx》中的闭环机制

真正实现 “战略-流程-执行-治理”一体化