数据治理, 精选文章

团队数据治理规范

适用范围:数据治理专员、数据开发、数据产品经理、业务负责人
核心原则元数据是基础,规则是手段,质量是目标,闭环是保障
配套文档

  • 《01元数据管理.docx》
  • 《02数据治理规则管理.docx》
  • 《03数据质量管理.docx》
  • 《数据治理工具包(增强版)》

一、总体要求

1.1 治理目标

  • 数据可信:核心字段质量评分 ≥90%
  • 口径统一:业务术语定义清晰、码值标准化
  • 问题闭环:P0/P1问题24小时内响应,闭环率 ≥95%
  • 合规安全:敏感字段100%脱敏,符合《个保法》《GDPR》

1.2 治理范围

  • 必治:DWD/DWS/DWT/ADS 核心表(企业、联系人、专利等)
  • 豁免:ODS原始表、技术字段(如 etl_time)、中间临时表

二、元数据管理规范

✅ 必须做

  • 所有核心字段必须绑定业务术语(通过 term_id 外键)
  • 敏感字段(L3)必须标注 data_level = "L3" 并关联脱敏策略
  • 表/字段变更必须更新元数据,否则不得上线
  • 字段级血缘必须记录来源(is_inherited=1 + source_field_id

❌ 禁止做

  • 不得手动填写字段业务含义(必须绑定术语)
  • 不得删除继承关系(破坏血缘追溯)
  • 不得为技术字段绑定业务术语(如 etl_time

三、治理规则管理规范

✅ 必须做

  • P0/P1字段必须配置三类规则:
    • 完整性:非空检查(如 company_id IS NOT NULL
    • 有效性:枚举值合规(如 status_code IN ('ACTIVE','INVALID')
    • 一致性:主外键匹配(如 contact_id 存在于 dwd_contact_base_full
  • 码值字段必须绑定“枚举值合规率=100%”规则
  • 规则变更必须填写《治理变更影响评估表.xlsx》并走审批流程

❌ 禁止做

  • 不得为技术字段配置业务规则
  • 不得配置无法自动执行的规则(如“数据必须真实”)
  • 不得关闭规则而不解决问题

四、数据质量管理规范

✅ 必须做

  • P0问题(主键重复、码值映射缺失)必须24小时内响应
  • 所有问题必须创建工单,记录根因(METADATA_DEFECT/RULE_DEFECT/ETL_ERROR/BUSINESS_CHANGE
  • 问题闭环后,必须评估是否需优化元数据或规则
  • 每月生成《质量评分卡》,纳入团队绩效考核

❌ 禁止做

  • 不得仅“修复数据”而不优化规则(治标不治本)
  • 不得关闭告警而不解决问题
  • 不得跳过工单直接修复(无法追溯)

五、码值字典治理专项规范

✅ 必须做

  • 所有状态/类型字段必须使用数仓标准码值
    • status_code = "ACTIVE"(短字符串)
    • status_id = 1(TINYINT)
  • 业务系统 UUID 必须通过 dim_code_mapping 映射,禁止直存
  • dim_status 表变更必须同步更新规则和 ADS 中文名

❌ 禁止做

  • 不得在 DWD/DWS/DWT 中存储业务系统 UUID
  • 不得在 ADS 中直接显示码值(必须 JOIN dim_statusstatus_name
  • 不得硬编码枚举值(如 status_code = 'a1b2c3...'

📌 示例

-- 正确
SELECT s.status_name 
FROM dwd_contact_channel_full c
JOIN dim_status s ON c.status_id = s.status_id;

-- 错误
SELECT status_code FROM dwd_contact_channel_full; -- 业务看不懂

六、变更与审计规范

场景要求
新增字段必须补充元数据 + 配置规则 + 纳入质量监控
修改规则必须评估影响 + 业务确认 + 灰度上线
下线表必须检查血缘 + 通知下游 + 保留7天
季度审计检查:元数据覆盖率、规则有效率、问题闭环率
重大变更必须提交《治理变更影响评估表.xlsx》,治理委员会审批

七、责任分工

角色职责
数据治理专员规则配置、质量监控、问题跟踪、元数据维护
数据开发ETL中实现清洗/映射/脱敏,配合问题修复
业务负责人确认术语定义、规则合理性、变更影响
数据产品经理提出质量需求,验收治理效果

八、口诀(新人必背)

元数据要绑定,规则要闭环;
码值用标准,UUID不能存;
问题建工单,根因反哺元;
治理有规范,数据才可信!

九、附录:关键交付物清单

模块交付物用途
元数据《治理范围划定清单.xlsx》明确治理范围
规则《治理规则配置清单.xlsx》规则批量配置
质量《质量问题跟踪与闭环表.xlsx》问题闭环管理
变更《治理变更影响评估表.xlsx》变更风险控制
字典《码值字典治理清单.xlsx》码值统一管理

规范为团队强制标准,所有数据治理活动必须遵守。
违反规范将导致:

  • 模型无法上线
  • 问题无法闭环
  • 数据不可信