文章
数据治理规则管理方案
一、概述
元数据管理和数据质量规则管理是数据治理中紧密衔接的两个核心环节。元数据管理提供了数据的“描述信息”(如业务含义、技术属性),而数据治理规则管理则基于这些信息,指定具体的校验逻辑,确保数据符合预期标准。
示例:
元数据管理的输出:
- 业务规则(如“客户年龄≥18岁”)
- 技术属性(如字段类型INT、是否可为空NULL)
数据管理规则的输入:
- 基于元数据中业务规则和技术属性,配置可执行的质量校验逻辑(如SQL规则age>=18)。
协同流程:

二、数据治理规则分类
规则类型 | 定义 | 示例 | 关联的元数据 |
完整性 | 数据是否缺失或不可用 | 字段非空、记录完整 | 技术元数据(是否可为空) |
有效性 | 数据是否符合预定义的格式或业务规则 | 手机号格式、枚举值范围 | 业务元数据(数据字典、业务规则) |
一致性 | 数据在跨系统、跨表中是否逻辑一致 | 订单金额=合同金额 | 血缘元数据(表间关联) |
准确性 | 数据是否与真实世界一致 | 用户地址是否真实存在 | 外部数据源(如地图API) |
唯一性 | 数据是否重复 | 主键或业务键唯一(如身份证号不重复) | 技术元数据(唯一约束) |
时效性 | 数据是否在有效时间范围内 | 数据更新延迟≤1小时 | 技术元数据(更新时间戳) |
以上是完整的规则类型,适用于金融、医疗等强合规行业或者数据量庞大、规则复杂的场景。
基于当前初期治理、中小规模数据、快速验证需要逻辑清晰、易于实施等要求,将使用以下三种分类,因为他们能覆盖数据质量的最基础、最普适的问题,更适合快速落地:
- 完整性:数据是否缺失或不可用
- 有效性:数据是否符合预定义的格式或业务规则
- 一致性:数据在跨系统、跨表中是否逻辑一致
其他规则可归并到这三类:
- 唯一性(如主键重复)可视为完整性的子集。
- 准确性(如数据与真实值不一致)可归入有效性或一致性。
- 时效性(如数据更新延迟)可归类为一致性(时间维度的一致性)。
规则类型示例:

三、规则配置方式
采用人工配置,操作路径:
- 在元数据系统中浏览字段详情(如客户年龄)。
- 点击“添加质量规则”按钮,跳转到规则配置页
- 手动选择规则类型(如“数值范围”),输入参数(如最小值=18)
界面功能如下:

四、管理流程
数据质量规则生命周期管理
- 制定:基于元数据和业务需求,明确规则优先级
- 审批:数据部门或业务负责人审核规则合理性
- 发布:规则版本化,记录变更历史
- 执行:集成到ETL/数据管道中,支持实时和批量校验
- 监控与优化:定期评估规则有效性,淘汰过时规则。
五、模型设计
1、规则定义模型
中文名称 | 英文名称 | 数据类型 | 备注 |
规则ID | rule_id | STRING | |
规则名称 | rule_name | STRING | 如:字段非空检查 |
规则类型 | rule_type | STRING | 技术/业务 |
适用范围 | rule_scope | STRING | 表级/字段级 |
规则逻辑表达式 | rule_expression | STRING | SQL/正则/脚本 |
规则描述 | description | STRING | |
优先级/等级? |
- 规则绑定模型
中文名称 | 英文名称 | 数据类型 | 备注 |
绑定关系ID | binding_id | STRING | |
关联规则ID外键 | rule_id | STRING | |
目标类型 | target_type | STRING | 表/字段 |
目标id | target_id | STRING | table_id/field_id |
生效状态 | is_active | BOOL | 默认true |
自定义错误提示 | custom_msg | STRING | 可空,如:手机号格式非法 |
绑定时间 | bind_time | DATETIME |
- 规则执行结果表
中文名称 | 英文名称 | 数据类型 | 备注 |
执行结果ID | result_id | STRING | |
关联规则ID外键 | rule_id | STRING | |
检查目标id | target_id | STRING | table_id/field_id |
检查时间 | check_time | STRING | |
是否通过 | is_passed | STRING | 0, 1 |
问题示例数据 | sample_data | STRING | JSON格式如{“phone”: “123456”} |
检查批次? |
数据治理规则管理与数据质量管理对比
模块名称 | 核心功能 | 与其他模块关系 |
治理规则管理 | 规则的创建、编辑、启动/禁用、绑定元数据 | 依赖元数据,为数据质量模块提供规则输入 |
数据质量管理 | 执行规则检查、存储结果、生成质量评分、告警 | 消费规则、反馈问题到元数据 |
1、治理规则页面示例:
规则id | 规则名称 | 规则类型 | 绑定字段数 | 最后修改时间 |
rule_001 | 用户姓名非空 | 非空检查 | 11 | 2025-01-01 |
绑定字段关联字段详情
字段名称 | 所属表 | 敏感等级 | 绑定时间 |
user_name | user_info | 1 | 2025-01-01 |
2、数据质量结果页面示例:
检查对象 | 总规则数 | 失败数 | 通过率 | 最后修改时间 |
rule_001 | 8 | 2 | 75% | 2025-01-01 |
失败问题详情
字段名 | 规则类型 | 错误信息 | 样本数据 |
user_name | 格式检查 | 包含非中文字符 | 张三123 |