文章
数据治理规则管理落地实施流程方案(增强版)
适用对象:数据治理专员、数据开发、业务负责人
技术依赖:元数据平台、规则引擎、调度系统(如 DolphinScheduler)
核心原则:规则源于元数据,服务于质量,闭环于业务
目标:3个月内实现核心字段 100% 覆盖完整性/有效性/一致性规则,问题规则闭环率 ≥90%
🧭 总体流程图(5大阶段)
[阶段1] 规则需求准备(治理前必做)
↓
[阶段2] 规则识别与分类(基于元数据)
↓
[阶段3] 规则配置与绑定(人工+自动)
↓
[阶段4] 规则执行与监控(集成调度)
↓
[阶段5] 规则优化与闭环(持续治理)
📌 阶段1:规则需求准备(治理前必做)
✅ 输入
- 《01元数据管理.docx》中的核心字段清单(如
company_name
,status_code
) - 《团队建模规范.md》中的字段标准(如
is_valid
必为 0/1) - 业务需求文档(如“销售导出必须含有效联系方式”)
- 《数据治理方案.docx》中的治理优先级(企业域 > 联系人域)
✅ 输出
- 《规则覆盖范围清单.xlsx》
- 《规则优先级矩阵.xlsx》
- 《敏感字段规则清单.xlsx》
🛠 操作步骤
- 划定规则范围:
- 必配规则字段:DWD/DWT/ADS 核心字段(如主键、码值、敏感字段)
- 豁免字段:技术字段(
etl_time
)、中间计算字段
- 识别规则类型(按《02数据治理规则管理.docx》):
- 完整性:非空、记录完整
- 有效性:枚举值、格式(手机号、邮箱)
- 一致性:跨表主外键、码值映射一致性
- 制定优先级:
- P0:主键、码值字段(如
status_code
) - P1:业务高频字段(如
company_name
) - P2:辅助字段(如
industry_name
)
- P0:主键、码值字段(如
⚠️ 避坑指南:
❌ 不要为所有字段配规则 → 资源浪费、告警疲劳
✅ 聚焦“影响业务决策”的字段
🧱 阶段2:规则识别与分类(基于元数据)
✅ 目标
- 从元数据中自动推导基础规则
- 人工补充业务规则
🔧 操作步骤(4步法)
步骤 | 任务 | 交付物 |
---|---|---|
1. 技术元数据推导 | 从字段is_nullable=0 → 自动生成“非空规则” | 自动规则建议清单 |
2. 业务元数据提取 | 从d_rule /q_rule 提取逻辑(如“status_code ∈ {ACTIVE, INVALID}”) | 业务规则映射表 |
3. 码值字典校验 | 从dim_status 提取枚举值 → 生成“有效性-枚举值”规则 | 枚举值规则库 |
4. 敏感字段规则 | 从data_level=L3 → 强制绑定“脱敏后格式校验” | 敏感字段规则清单 |
💡 增强点:
- 利用《数仓字典表管理》中的
dim_status
和dim_code_mapping
,自动生成码值合规规则 - 从《建模工具包》的《清洗规则表.xlsx》反向生成规则表达式
🔗 阶段3:规则配置与绑定
✅ 目标
- 在元数据平台中完成规则创建与字段绑定
- 支持版本化、审批流
🔧 操作步骤
- 规则创建:
- 类型:选择“非空”“枚举值”“正则格式”等
- 表达式:填写 SQL/正则(如
status_code IN ('ACTIVE', 'INVALID')
) - 错误提示:
“状态码必须为 ACTIVE/INVALID”
- 规则绑定:
- 目标:选择字段(如
dwd_company_base_full.status_code
) - 生效状态:默认启用
- 目标:选择字段(如
- 审批发布:
- 提交业务负责人审核(如销售确认“有效客户定义”)
- 元数据平台记录版本(v1.0 → v1.1)
✅ 交付物:
- 《规则绑定清单.xlsx》
- 元数据平台中的规则-字段绑定关系
🚀 阶段4:规则执行与监控
✅ 目标
- 规则自动调度执行
- 问题数据生成质量工单
🔧 操作步骤
- 调度配置:
- 周期:每日凌晨(与 ETL 串行)
- 任务:调用规则引擎执行 SQL 校验
- 结果记录:
- 写入《03数据质量管理.docx》中的
调度执行结果表
- 记录通过率、问题示例(如
{ "status_code": "DELETED" }
)
- 写入《03数据质量管理.docx》中的
- 告警推送:
- P0 规则失败 → 企业微信 + 短信
- P1/P2 → 邮件 + 质量看板
📌 关键检查:
- 码值字段是否 100% 合规?
- 敏感字段是否脱敏后仍符合格式?
🔄 阶段5:规则优化与闭环
✅ 优化触发条件
- 业务逻辑变更(如新增状态
ARCHIVED
) - 规则误报率高(如手机号正则不兼容新号段)
- 数据质量问题反复出现
🔧 闭环流程
- 问题归因(来自《03数据质量管理》):
- 根因分类:
METADATA_DEFECT
/RULE_DEFECT
/BUSINESS_CHANGE
- 根因分类:
- 规则优化:
- 新增枚举值:
status_code
增加'ARCHIVED'
- 调整正则:手机号支持 19x 号段
- 新增枚举值:
- 元数据同步:
- 更新
dim_status
表 - 同步
d_rule
/q_rule
- 更新
- 版本发布:
- 走审批流程 → 发布 v2.0 规则
✅ 交付物:
- 《规则优化记录表.xlsx》
- 质量评分提升报告(如“码值合规率从 98% → 100%”)
💡 总结:新人也能做好规则治理
- 有流程:5阶段、4步法,步步清晰
- 有模板:规则清单、优先级矩阵、优化记录,直接套用
- 有联动:与元数据、建模、质量无缝衔接
- 有重点:先核心字段,后边缘;先自动推导,后人工补充
- 有闭环:从规则创建 → 执行 → 问题 → 优化 → 元数据更新
📣 口诀(新人必背):
规则源于元数据,三类覆盖保基础;
码值敏感重点管,执行告警要闭环;
业务变更及时调,治理规则才有效!
你可以将此方案保存为 《数据治理规则管理落地实施流程方案(增强版).md》,作为《02数据治理规则管理.docx》的配套执行手册,与你的建模流程方案并列使用,形成:
- 建模有流程 → 《数仓建模落地实施流程方案》
- 元数据有流程 → 《元数据管理落地实施流程方案》
- 规则有流程 → 本方案
- 质量有流程 → 《03数据质量管理.docx》中的闭环机制
真正实现 “战略-流程-执行-治理”一体化。