文章
团队数据治理规范
适用范围:数据治理专员、数据开发、数据产品经理、业务负责人
核心原则:元数据是基础,规则是手段,质量是目标,闭环是保障
配套文档:
- 《01元数据管理.docx》
- 《02数据治理规则管理.docx》
- 《03数据质量管理.docx》
- 《数据治理工具包(增强版)》
一、总体要求
1.1 治理目标
- 数据可信:核心字段质量评分 ≥90%
- 口径统一:业务术语定义清晰、码值标准化
- 问题闭环:P0/P1问题24小时内响应,闭环率 ≥95%
- 合规安全:敏感字段100%脱敏,符合《个保法》《GDPR》
1.2 治理范围
- 必治:DWD/DWS/DWT/ADS 核心表(企业、联系人、专利等)
- 豁免:ODS原始表、技术字段(如
etl_time
)、中间临时表
二、元数据管理规范
✅ 必须做
- 所有核心字段必须绑定业务术语(通过
term_id
外键) - 敏感字段(L3)必须标注
data_level = "L3"
并关联脱敏策略 - 表/字段变更必须更新元数据,否则不得上线
- 字段级血缘必须记录来源(
is_inherited=1
+source_field_id
)
❌ 禁止做
- 不得手动填写字段业务含义(必须绑定术语)
- 不得删除继承关系(破坏血缘追溯)
- 不得为技术字段绑定业务术语(如
etl_time
)
三、治理规则管理规范
✅ 必须做
- P0/P1字段必须配置三类规则:
- 完整性:非空检查(如
company_id IS NOT NULL
) - 有效性:枚举值合规(如
status_code IN ('ACTIVE','INVALID')
) - 一致性:主外键匹配(如
contact_id
存在于dwd_contact_base_full
)
- 完整性:非空检查(如
- 码值字段必须绑定“枚举值合规率=100%”规则
- 规则变更必须填写《治理变更影响评估表.xlsx》并走审批流程
❌ 禁止做
- 不得为技术字段配置业务规则
- 不得配置无法自动执行的规则(如“数据必须真实”)
- 不得关闭规则而不解决问题
四、数据质量管理规范
✅ 必须做
- P0问题(主键重复、码值映射缺失)必须24小时内响应
- 所有问题必须创建工单,记录根因(
METADATA_DEFECT
/RULE_DEFECT
/ETL_ERROR
/BUSINESS_CHANGE
) - 问题闭环后,必须评估是否需优化元数据或规则
- 每月生成《质量评分卡》,纳入团队绩效考核
❌ 禁止做
- 不得仅“修复数据”而不优化规则(治标不治本)
- 不得关闭告警而不解决问题
- 不得跳过工单直接修复(无法追溯)
五、码值字典治理专项规范
✅ 必须做
- 所有状态/类型字段必须使用数仓标准码值:
status_code = "ACTIVE"
(短字符串)- 或
status_id = 1
(TINYINT)
- 业务系统 UUID 必须通过
dim_code_mapping
映射,禁止直存 dim_status
表变更必须同步更新规则和 ADS 中文名
❌ 禁止做
- 不得在 DWD/DWS/DWT 中存储业务系统 UUID
- 不得在 ADS 中直接显示码值(必须 JOIN
dim_status
取status_name
) - 不得硬编码枚举值(如
status_code = 'a1b2c3...'
)
📌 示例:
-- 正确
SELECT s.status_name
FROM dwd_contact_channel_full c
JOIN dim_status s ON c.status_id = s.status_id;
-- 错误
SELECT status_code FROM dwd_contact_channel_full; -- 业务看不懂
六、变更与审计规范
场景 | 要求 |
---|---|
新增字段 | 必须补充元数据 + 配置规则 + 纳入质量监控 |
修改规则 | 必须评估影响 + 业务确认 + 灰度上线 |
下线表 | 必须检查血缘 + 通知下游 + 保留7天 |
季度审计 | 检查:元数据覆盖率、规则有效率、问题闭环率 |
重大变更 | 必须提交《治理变更影响评估表.xlsx》,治理委员会审批 |
七、责任分工
角色 | 职责 |
---|---|
数据治理专员 | 规则配置、质量监控、问题跟踪、元数据维护 |
数据开发 | ETL中实现清洗/映射/脱敏,配合问题修复 |
业务负责人 | 确认术语定义、规则合理性、变更影响 |
数据产品经理 | 提出质量需求,验收治理效果 |
八、口诀(新人必背)
元数据要绑定,规则要闭环;
码值用标准,UUID不能存;
问题建工单,根因反哺元;
治理有规范,数据才可信!
九、附录:关键交付物清单
模块 | 交付物 | 用途 |
---|---|---|
元数据 | 《治理范围划定清单.xlsx》 | 明确治理范围 |
规则 | 《治理规则配置清单.xlsx》 | 规则批量配置 |
质量 | 《质量问题跟踪与闭环表.xlsx》 | 问题闭环管理 |
变更 | 《治理变更影响评估表.xlsx》 | 变更风险控制 |
字典 | 《码值字典治理清单.xlsx》 | 码值统一管理 |
规范为团队强制标准,所有数据治理活动必须遵守。
违反规范将导致:
- 模型无法上线
- 问题无法闭环
- 数据不可信