文章
数据治理工具包(增强版)
适用对象:数据治理专员、数据开发、质量分析师
配套文档:
- 《元数据管理落地实施流程方案(增强版)》
- 《数据治理规则管理落地实施流程方案(增强版)》
- 《数据质量管理落地实施流程方案(增强版)》
设计原则:流程驱动、模板先行、闭环可溯、新人可用
📎 1. 《治理范围划定清单.xlsx》
用途:在治理启动前,明确“管哪些表、哪些字段、优先级如何”
使用阶段:元数据/规则/质量 三大流程的 阶段1(准备)
字段名 | 所属表 | 业务域 | 是否核心字段 | 敏感等级 | 治理优先级(P0~P3) | 负责人 | 备注 |
---|---|---|---|---|---|---|---|
company_name | dwd_company_base_full | 企业资质 | 是 | L1 | P0 | 张三 | 高频使用 |
status_code | dwd_contact_channel_full | 客户触达 | 是 | L2 | P0 | 李四 | 码值字段 |
phone | dwd_contact_channel_full | 客户触达 | 是 | L3 | P0 | 李四 | 敏感字段,需脱敏 |
etl_time | dwd_company_base_full | - | 否 | L0 | P3 | - | 技术字段,豁免 |
patent_number | dwd_patent_full | 知识产权 | 是 | L1 | P1 | 王五 | 专利唯一标识 |
说明:
- 敏感等级:L0=无敏感,L1=业务敏感,L2=内部敏感,L3=PII(身份证/手机号)
- 治理优先级:P0=必须治理,P1=重要,P2=一般,P3=可暂缓
✅ 自动联动:
- “是否核心字段” → 决定是否绑定业务术语
- “敏感等级” → 自动触发脱敏规则
- “治理优先级” → 决定规则配置顺序
📎 2. 《业务术语与规则定义模板.xlsx》
用途:统一业务术语定义 + 三类规则(d_rule/q_rule/c_rule)
使用阶段:元数据流程 阶段3 + 规则流程 阶段2
术语ID | 术语名称 | 业务过程 | 术语定义 | 数据定义规则(D_RULE) | 数据质量规则(Q_RULE) | 计算逻辑规则(C_RULE) | 示例 |
---|---|---|---|---|---|---|---|
STATUS_CODE | 联系状态 | 客户触达 | 表示联系人当前有效性 | 枚举值:ACTIVE, INVALID, PENDING | 必须来自 dim_status,合规率=100% | - | ACTIVE=有效 |
PHONE | 联系电话 | 客户触达 | 企业对外联系电话 | 格式:11位数字 | 正则:^1[3-9]\d{9}$ | - | 138****1234 |
COMPANY_GRADE | 企业等级 | 资质评估 | 基于专利、软著、注册资本划分 | A/B/C/D 四档 | 必须非空,且 ∈ {A,B,C,D} | score>90 → A | A类客户 |
使用说明:
d_rule
用于元数据定义q_rule
用于质量规则引擎c_rule
仅用于派生指标
💡 增强点:
- 支持“一词多义”:同一术语ID + 不同业务过程 = 不同定义
- 规则字段可直接用于生成
rule_expression
📎 3. 《码值字典治理清单.xlsx》
用途:管理 dim_status
+ dim_code_mapping
的映射关系
使用阶段:元数据流程 阶段2 + 规则流程 阶段2
码值类型 | 数仓CODE | 数仓NAME | 业务系统 | 源码值 | 是否启用 | 最后更新 |
---|---|---|---|---|---|---|
contact_status | ACTIVE | 有效 | crm | a1b2c3d4-e5f6-... | 是 | 2025-09-20 |
contact_status | INVALID | 无效 | crm | b2c3d4e5-f6g7-... | 是 | 2025-09-20 |
contact_status | VALID | 有效 | sales | VALID | 是 | 2025-09-20 |
company_status | PENDING | 待领取 | crm | 550e8400-e29b-... | 是 | 2025-09-20 |
✅ 自动输出:
dim_status
表数据dim_code_mapping
表数据- 码值合规规则(枚举值=ACTIVE/INVALID/PENDING)
📎 4. 《治理规则配置清单.xlsx》
用途:人工配置规则的结构化模板,支持批量导入规则引擎
使用阶段:规则流程 阶段3
规则ID | 规则名称 | 规则类型 | 目标字段ID | 规则表达式 | 自定义错误提示 | 优先级 | 生效状态 |
---|---|---|---|---|---|---|---|
rule_001 | 状态码合规 | 枚举值 | field_123 | status_code IN ('ACTIVE','INVALID','PENDING') | 状态码必须为有效值 | P0 | 启用 |
rule_002 | 手机号格式 | 正则格式 | field_456 | REGEXP(phone, '^1[3-9]\d{9}$') | 手机号格式非法 | P1 | 启用 |
rule_003 | 主键非空 | 非空检查 | field_789 | company_id IS NOT NULL | 企业ID不能为空 | P0 | 启用 |
🔗 字段ID 来自元数据平台,确保精准绑定
📎 5. 《质量调度与监控配置表.xlsx》
用途:配置质量检查任务的调度、责任人、告警方式
使用阶段:质量流程 阶段2
调度ID | 规则ID | 检查目标ID | 调度周期 | 任务类型 | 责任人 | 告警方式(P0/P1/P2) |
---|---|---|---|---|---|---|
dq_001 | rule_001 | table_789 | 0 2 * * * | 周期扫描 | 李四 | 企业微信/短信/邮件 |
dq_002 | rule_002 | field_456 | 0 2 * * * | 周期扫描 | 王五 | 邮件 |
dq_003 | rule_003 | field_789 | 0 2 * * * | 周期扫描 | 张三 | 企业微信 |
✅ 自动创建 DolphinScheduler 质量任务
📎 6. 《质量问题跟踪与闭环表.xlsx》
用途:记录问题、分配责任人、跟踪解决、反哺优化
使用阶段:质量流程 阶段4~5
问题ID | 执行结果ID | 问题类型 | 严重等级 | 当前状态 | 责任人 | 根因分析 | 解决方案 | 闭环时间 | 是否需要优化元数据/规则 |
---|---|---|---|---|---|---|---|---|---|
issue_001 | res_123 | FORMAT_ERROR | P1 | RESOLVED | 李四 | RULE_DEFECT | 修正正则表达式 | 2025-09-25 | 是 |
issue_002 | res_456 | DATA_MISSING | P0 | IN_PROGRESS | 王五 | ETL_ERROR | 修复清洗逻辑,补全空值 | - | 否 |
issue_003 | res_789 | LOGIC_CONFLICT | P2 | OPEN | 张三 | BUSINESS_CHANGE | 新增枚举值 'ARCHIVED' | - | 是 |
根因分类:
- METADATA_DEFECT:元数据定义错误
- RULE_DEFECT:规则逻辑错误
- ETL_ERROR:ETL清洗错误
- BUSINESS_CHANGE:业务变更
🔁 闭环后自动触发:
- 元数据更新(如修正字段类型)
- 规则优化(如新增枚举值)
📎 7. 《治理变更影响评估表.xlsx》
用途:当业务变更需调整治理规则/元数据时,评估影响范围
使用阶段:三大流程的 变更管理环节
变更类型 | 变更对象 | 变更原因 | 影响字段/表 | 是否影响下游报表 | 是否灰度 | 回滚方案 | 业务确认人 | 数据负责人 |
---|---|---|---|---|---|---|---|---|
新增枚举值 | dim_status | 新增“ARCHIVED”状态 | status_code | 是(影响3张ADS) | 是 | 保留旧规则7天 | 张三 | 李四 |
📌 强制要求:重大变更必须填写,否则不得上线
📌 辅助清单(轻量级)
📋 8. 《敏感字段脱敏策略清单.md》
### 敏感字段脱敏策略
| 字段类型 | 脱敏方式 | 示例 |
|----------|----------|------|
| 身份证号 | SHA256 或 删除 | `e3b0c442...` 或 空 |
| 手机号 | 保留前3后4,中间`****` | `138****1234` |
| 邮箱 | 保留前缀,域名脱敏 | `user@***.com` |
| 企业地址 | 保留省市区,门牌号脱敏 | `北京市海淀区***` |
> **执行位置**:DWD层ETL中完成,不得在ADS层处理。
📋 9. 《质量评分卡模板.xlsx》
- 按表/字段展示:完整性得分、有效性得分、一致性得分
- 支持月度趋势对比
被评分对象 | 评分维度 | 得分 | 评分日期 | 负责人 |
---|---|---|---|---|
dwd_company_base_full | 完整性 | 98.5 | 2025-09-25 | 张三 |
dwd_company_base_full | 有效性 | 100.0 | 2025-09-25 | 张三 |
dwd_company_base_full | 一致性 | 99.2 | 2025-09-25 | 张三 |
dwd_contact_channel_full | 完整性 | 95.0 | 2025-09-25 | 李四 |
评分公式:
完整性 = (非空记录数 / 总记录数) × 100
有效性 = (合规记录数 / 总记录数) × 100
📋 10. 《治理资产目录清单.xlsx》
- 列出所有治理资产:
- 元数据表(table_store, field_store)
- 规则表(rule_def, rule_binding)
- 质量表(schedule_info, issue_track)
- 字典表(dim_status, dim_code_mapping)
资产类型 | 资产名称 | 用途 | 所属模块 |
---|---|---|---|
元数据表 | table_store | 存储表结构 | 元数据管理 |
元数据表 | field_store | 存储字段属性 | 元数据管理 |
规则表 | rule_def | 规则定义 | 治理规则管理 |
规则表 | rule_binding | 规则绑定 | 治理规则管理 |
质量表 | schedule_info | 调度配置 | 数据质量管理 |
质量表 | issue_track | 问题跟踪 | 数据质量管理 |
字典表 | dim_status | 数仓标准码值 | 数仓字典表管理 |
字典表 | dim_code_mapping | 映射表 | 数仓字典表管理 |
💡 治理口诀(新人必背)
治理先划范围,核心字段优先;
术语规则绑定,码值必须统一;
规则自动调度,问题闭环跟踪;
根因反哺元数据,体系越治越稳!
✅ 工具包价值总结
维度 | 价值 |
---|---|
标准化 | 新人照模板填,不出错 |
自动化 | 模板可直接生成 SQL/调度任务/规则表达式 |
闭环性 | 问题 → 工单 → 修复 → 优化元数据/规则 |
合规性 | 敏感字段自动识别,码值统一,满足《个保法》 |
可演进 | 支持业务变更、规则迭代、元数据版本化 |
你可以将此工具包保存为 《数据治理工具包(增强版).zip》,内含上述 10 个文件,作为《01/02/03》治理文档的配套执行资产,与《数仓建模工具包》并列使用,形成:
- 建模有工具包 → 支撑“建得好”
- 治理有工具包 → 支撑“管得住”
真正实现 “建治一体、新人可用、长期演进” 的企业级数据治理体系。