大数据, 美好生活

数据治理规则管理方案

一、概述

元数据管理和数据质量规则管理是数据治理中紧密衔接的两个核心环节。元数据管理提供了数据的“描述信息”(如业务含义、技术属性),而数据治理规则管理则基于这些信息,指定具体的校验逻辑,确保数据符合预期标准。

示例:

元数据管理的输出:

  • 业务规则(如“客户年龄≥18岁”)
  • 技术属性(如字段类型INT、是否可为空NULL)

数据管理规则的输入:

  • 基于元数据中业务规则和技术属性,配置可执行的质量校验逻辑(如SQL规则age>=18)。

协同流程:

二、数据治理规则分类

规则类型定义示例关联的元数据
完整性数据是否缺失或不可用字段非空、记录完整技术元数据(是否可为空)
有效性数据是否符合预定义的格式或业务规则手机号格式、枚举值范围业务元数据(数据字典、业务规则)
一致性数据在跨系统、跨表中是否逻辑一致订单金额=合同金额血缘元数据(表间关联)
准确性数据是否与真实世界一致用户地址是否真实存在外部数据源(如地图API)
唯一性数据是否重复主键或业务键唯一(如身份证号不重复)技术元数据(唯一约束)
时效性数据是否在有效时间范围内数据更新延迟≤1小时技术元数据(更新时间戳)

以上是完整的规则类型,适用于金融、医疗等强合规行业或者数据量庞大、规则复杂的场景。

基于当前初期治理、中小规模数据、快速验证需要逻辑清晰、易于实施等要求,将使用以下三种分类,因为他们能覆盖数据质量的最基础、最普适的问题,更适合快速落地:

  • 完整性:数据是否缺失或不可用
  • 有效性:数据是否符合预定义的格式或业务规则
  • 一致性:数据在跨系统、跨表中是否逻辑一致

其他规则可归并到这三类:

  • 唯一性(如主键重复)可视为完整性的子集。
  • 准确性(如数据与真实值不一致)可归入有效性或一致性。
  • 时效性(如数据更新延迟)可归类为一致性(时间维度的一致性)。

规则类型示例:

三、规则配置方式

采用人工配置,操作路径:

  1. 在元数据系统中浏览字段详情(如客户年龄)。
  2. 点击“添加质量规则”按钮,跳转到规则配置页
  3. 手动选择规则类型(如“数值范围”),输入参数(如最小值=18)

界面功能如下:

四、管理流程

数据质量规则生命周期管理

  • 制定:基于元数据和业务需求,明确规则优先级
  • 审批:数据部门或业务负责人审核规则合理性
  • 发布:规则版本化,记录变更历史
  • 执行:集成到ETL/数据管道中,支持实时和批量校验
  • 监控与优化:定期评估规则有效性,淘汰过时规则。

五、模型设计

1、规则定义模型

中文名称英文名称数据类型备注
规则IDrule_idSTRING 
规则名称rule_nameSTRING如:字段非空检查
规则类型rule_typeSTRING技术/业务
适用范围rule_scopeSTRING表级/字段级
规则逻辑表达式rule_expressionSTRINGSQL/正则/脚本
规则描述descriptionSTRING 
优先级/等级?   
  • 规则绑定模型
中文名称英文名称数据类型备注
绑定关系IDbinding_idSTRING 
关联规则ID外键rule_idSTRING 
目标类型target_typeSTRING表/字段
目标idtarget_idSTRINGtable_id/field_id
生效状态is_activeBOOL默认true
自定义错误提示custom_msgSTRING可空,如:手机号格式非法
绑定时间bind_timeDATETIME 
  • 规则执行结果表
中文名称英文名称数据类型备注
执行结果IDresult_idSTRING 
关联规则ID外键rule_idSTRING 
检查目标idtarget_idSTRINGtable_id/field_id
检查时间check_timeSTRING 
是否通过is_passedSTRING0, 1
问题示例数据sample_dataSTRINGJSON格式如{“phone”: “123456”}
检查批次?   

数据治理规则管理与数据质量管理对比

模块名称核心功能与其他模块关系
治理规则管理规则的创建、编辑、启动/禁用、绑定元数据依赖元数据,为数据质量模块提供规则输入
数据质量管理执行规则检查、存储结果、生成质量评分、告警消费规则、反馈问题到元数据

1、治理规则页面示例:

规则id规则名称规则类型绑定字段数最后修改时间
rule_001用户姓名非空非空检查112025-01-01

绑定字段关联字段详情

字段名称所属表敏感等级绑定时间
user_nameuser_info12025-01-01

2、数据质量结果页面示例:

检查对象总规则数失败数通过率最后修改时间
rule_0018275%2025-01-01

失败问题详情

字段名规则类型错误信息样本数据
user_name格式检查包含非中文字符张三123