数据治理, 精选文章

数据治理工具包(增强版)

适用对象:数据治理专员、数据开发、质量分析师
配套文档

  • 《元数据管理落地实施流程方案(增强版)》
  • 《数据治理规则管理落地实施流程方案(增强版)》
  • 《数据质量管理落地实施流程方案(增强版)》
    设计原则流程驱动、模板先行、闭环可溯、新人可用

📎 1. 《治理范围划定清单.xlsx》

用途:在治理启动前,明确“管哪些表、哪些字段、优先级如何”
使用阶段:元数据/规则/质量 三大流程的 阶段1(准备)

字段名所属表业务域是否核心字段敏感等级治理优先级(P0~P3)负责人备注
company_namedwd_company_base_full企业资质L1P0张三高频使用
status_codedwd_contact_channel_full客户触达L2P0李四码值字段
phonedwd_contact_channel_full客户触达L3P0李四敏感字段,需脱敏
etl_timedwd_company_base_full-L0P3-技术字段,豁免
patent_numberdwd_patent_full知识产权L1P1王五专利唯一标识

说明

  • 敏感等级:L0=无敏感,L1=业务敏感,L2=内部敏感,L3=PII(身份证/手机号)
  • 治理优先级:P0=必须治理,P1=重要,P2=一般,P3=可暂缓

自动联动

  • “是否核心字段” → 决定是否绑定业务术语
  • “敏感等级” → 自动触发脱敏规则
  • “治理优先级” → 决定规则配置顺序

📎 2. 《业务术语与规则定义模板.xlsx》

用途:统一业务术语定义 + 三类规则(d_rule/q_rule/c_rule)
使用阶段:元数据流程 阶段3 + 规则流程 阶段2

术语ID术语名称业务过程术语定义数据定义规则(D_RULE)数据质量规则(Q_RULE)计算逻辑规则(C_RULE)示例
STATUS_CODE联系状态客户触达表示联系人当前有效性枚举值:ACTIVE, INVALID, PENDING必须来自 dim_status,合规率=100%-ACTIVE=有效
PHONE联系电话客户触达企业对外联系电话格式:11位数字正则:^1[3-9]\d{9}$-138****1234
COMPANY_GRADE企业等级资质评估基于专利、软著、注册资本划分A/B/C/D 四档必须非空,且 ∈ {A,B,C,D}score>90 → AA类客户

使用说明

  • d_rule 用于元数据定义
  • q_rule 用于质量规则引擎
  • c_rule 仅用于派生指标

💡 增强点

  • 支持“一词多义”:同一术语ID + 不同业务过程 = 不同定义
  • 规则字段可直接用于生成 rule_expression

📎 3. 《码值字典治理清单.xlsx》

用途:管理 dim_status + dim_code_mapping 的映射关系
使用阶段:元数据流程 阶段2 + 规则流程 阶段2

码值类型数仓CODE数仓NAME业务系统源码值是否启用最后更新
contact_statusACTIVE有效crma1b2c3d4-e5f6-...2025-09-20
contact_statusINVALID无效crmb2c3d4e5-f6g7-...2025-09-20
contact_statusVALID有效salesVALID2025-09-20
company_statusPENDING待领取crm550e8400-e29b-...2025-09-20

自动输出

  • dim_status 表数据
  • dim_code_mapping 表数据
  • 码值合规规则(枚举值=ACTIVE/INVALID/PENDING)

📎 4. 《治理规则配置清单.xlsx》

用途:人工配置规则的结构化模板,支持批量导入规则引擎
使用阶段:规则流程 阶段3

规则ID规则名称规则类型目标字段ID规则表达式自定义错误提示优先级生效状态
rule_001状态码合规枚举值field_123status_code IN ('ACTIVE','INVALID','PENDING')状态码必须为有效值P0启用
rule_002手机号格式正则格式field_456REGEXP(phone, '^1[3-9]\d{9}$')手机号格式非法P1启用
rule_003
主键非空
非空检查field_789company_id IS NOT NULL企业ID不能为空P0启用

🔗 字段ID 来自元数据平台,确保精准绑定

📎 5. 《质量调度与监控配置表.xlsx》

用途:配置质量检查任务的调度、责任人、告警方式
使用阶段:质量流程 阶段2

调度ID规则ID检查目标ID调度周期任务类型责任人告警方式(P0/P1/P2)
dq_001rule_001table_7890 2 * * *周期扫描李四企业微信/短信/邮件
dq_002rule_002field_4560 2 * * *周期扫描王五邮件
dq_003rule_003field_7890 2 * * *周期扫描张三企业微信

自动创建 DolphinScheduler 质量任务

📎 6. 《质量问题跟踪与闭环表.xlsx》

用途:记录问题、分配责任人、跟踪解决、反哺优化
使用阶段:质量流程 阶段4~5

问题ID执行结果ID问题类型严重等级当前状态责任人根因分析解决方案闭环时间是否需要优化元数据/规则
issue_001res_123FORMAT_ERRORP1RESOLVED李四RULE_DEFECT修正正则表达式2025-09-25
issue_002res_456DATA_MISSINGP0IN_PROGRESS王五ETL_ERROR修复清洗逻辑,补全空值-
issue_003res_789LOGIC_CONFLICTP2OPEN张三BUSINESS_CHANGE新增枚举值 'ARCHIVED'-

根因分类

  • METADATA_DEFECT:元数据定义错误
  • RULE_DEFECT:规则逻辑错误
  • ETL_ERROR:ETL清洗错误
  • BUSINESS_CHANGE:业务变更

🔁 闭环后自动触发

  • 元数据更新(如修正字段类型)
  • 规则优化(如新增枚举值)

📎 7. 《治理变更影响评估表.xlsx》

用途:当业务变更需调整治理规则/元数据时,评估影响范围
使用阶段:三大流程的 变更管理环节

变更类型变更对象变更原因影响字段/表是否影响下游报表是否灰度回滚方案业务确认人数据负责人
新增枚举值dim_status新增“ARCHIVED”状态status_code是(影响3张ADS)保留旧规则7天张三李四

📌 强制要求:重大变更必须填写,否则不得上线

📌 辅助清单(轻量级)

📋 8. 《敏感字段脱敏策略清单.md》

### 敏感字段脱敏策略

| 字段类型 | 脱敏方式 | 示例 |
|----------|----------|------|
| 身份证号 | SHA256 或 删除 | `e3b0c442...` 或 空 |
| 手机号 | 保留前3后4,中间`****` | `138****1234` |
| 邮箱 | 保留前缀,域名脱敏 | `user@***.com` |
| 企业地址 | 保留省市区,门牌号脱敏 | `北京市海淀区***` |

> **执行位置**:DWD层ETL中完成,不得在ADS层处理。

📋 9. 《质量评分卡模板.xlsx》

  • 按表/字段展示:完整性得分、有效性得分、一致性得分
  • 支持月度趋势对比
被评分对象评分维度得分评分日期负责人
dwd_company_base_full完整性98.52025-09-25张三
dwd_company_base_full有效性100.02025-09-25张三
dwd_company_base_full一致性99.22025-09-25张三
dwd_contact_channel_full完整性95.02025-09-25李四

评分公式
完整性 = (非空记录数 / 总记录数) × 100
有效性 = (合规记录数 / 总记录数) × 100

📋 10. 《治理资产目录清单.xlsx》

  • 列出所有治理资产:
    • 元数据表(table_store, field_store)
    • 规则表(rule_def, rule_binding)
    • 质量表(schedule_info, issue_track)
    • 字典表(dim_status, dim_code_mapping)
资产类型资产名称用途所属模块
元数据表table_store存储表结构元数据管理
元数据表field_store存储字段属性元数据管理
规则表rule_def规则定义治理规则管理
规则表rule_binding规则绑定治理规则管理
质量表schedule_info调度配置数据质量管理
质量表issue_track问题跟踪数据质量管理
字典表dim_status数仓标准码值数仓字典表管理
字典表dim_code_mapping映射表数仓字典表管理

💡 治理口诀(新人必背)

治理先划范围,核心字段优先;
术语规则绑定,码值必须统一;
规则自动调度,问题闭环跟踪;
根因反哺元数据,体系越治越稳!

✅ 工具包价值总结

维度价值
标准化新人照模板填,不出错
自动化模板可直接生成 SQL/调度任务/规则表达式
闭环性问题 → 工单 → 修复 → 优化元数据/规则
合规性敏感字段自动识别,码值统一,满足《个保法》
可演进支持业务变更、规则迭代、元数据版本化

你可以将此工具包保存为 《数据治理工具包(增强版).zip》,内含上述 10 个文件,作为《01/02/03》治理文档的配套执行资产,与《数仓建模工具包》并列使用,形成:

  • 建模有工具包 → 支撑“建得好”
  • 治理有工具包 → 支撑“管得住”

真正实现 “建治一体、新人可用、长期演进” 的企业级数据治理体系。