文章
数据质量管理方案
一、概述
数据质量管理是以元数据为基础、规则引擎为核心、闭环优化为目标的持续治理过程,通过自动化的校验->分析->修复->预防机制,确保数据在完整性、准确性、一致性等方面满足业务需求,具体包含:
1、治理基础:
- 依赖技术/业务/管理元数据构建数据血缘网络
- 建立规则库(基础校验规则、业务规则、合规规则)
2、核心流程
配置质量规则脚本->调度执行->结果记录与分析->分级预
3、高阶能力
- 根原因分析定位数据缺陷源头(技术/流程/管理问题)
- 通过优化元数据定义和规则逻辑预防问题复发
3、价值输出
- 量化数据健康度(质量评分卡)
- 形成“发现问题->应急处理->体系优化”的闭环
二、元数据-规则-质量动态联动

数据质量管理是通过元数据驱动的规则化治理手动,实现从数据缺陷检测、根因分析到体系优化的全生命周期管理。
增加问题跟踪模块将预警推送转化为可跟踪的工单,记录责任人处理进度,闭环后归档。

"已解决"的问题为何仍需优化元数据/规则。
(1)根本性修复需求
表面问题可能通过临时措施解决(如人工修正错误数据),但需通过优化元数据/规则预防同类问题复发。
示例:
- 问题现象:报表中"客户年龄"字段出现负数。
- 临时解决:手动修正该数据。
- 规则优化:在元数据中增加取值范围≥0的约束,并添加质量校验规则。
流程图:

(2)元数据与规则的动态关系
问题类型 | 优化目标 | 案例 |
数据定义缺陷 | 更新业务元数据 | 业务指标口径描述不清->补充定义 |
校验遗漏 | 新增规则 | 未检测跨系统数据不一致->新增对比规则 |
技术实现错误 | 修改技术元数据 | 字段类型与实际不符->修正元数据类型 |

三、模型设计
1、调度信息表
中文名称 | 英文名称 | 数据类型 | 备注 |
调度任务ID | schedule_id | STRING | |
关联规则ID | rule_id | STRING | 外键,关联规则库表 |
任务类型 | task_type | STRING | 枚举值:实时校验/周期扫描/临时任务 |
调度周期 | cron_expression | STRING | 调度表达式如:0 0 12 * * ? |
检查目标类型 | target_type | ENUM | TABLE(表级)/FIELD(字段级)/CROSS_TABLE(跨表) |
检查目标ID | target_id | STRING | table_id/field_id |
任务状态 | status | ENUM | ENABLED/DISABLED/DEPRECATED |
责任人 | owner | STRING |
2、调度执行结果表
中文名称 | 英文名称 | 数据类型 | 备注 |
执行结果ID | result_id | STRING | |
调度任务ID | schedule_id | STRING | 外键 |
检查时间 | check_time | DATETIME | |
耗时(ms) | cost_time | BIGINT | 执行耗时 |
检查记录数 | checked_count | BIGINT | 被检数据量 |
问题记录数 | error_count | BIGINT | JSON格式如{“phone”: “123456”} |
通过率 | pass_rate | DECIMAL(5,2) | 计算公式:(checked_count-error_count)/checked_count |
问题示例数据 | sample_data | STRING | 示例:{"field":"phone","error_type":"FORMAT","bad_records":["123456"]} |
3、问题跟踪表
中文名称 | 英文名称 | 数据类型 | 备注 |
问题ID | issue_id | STRING | |
执行结果ID | result_id | STRING | |
问题类型 | issue_type | ENUM | 枚举:DATA_MISSING/FORMAT_ERROR/LOGIC_CONFLICT等 |
严重等级 | severity | ENUM | P0(阻断性)/P1(严重)/P2(一般)/P3(提示) |
当前状态 | status | ENUM | OPEN/IN_PROGRESS/RESOLVED/CLOSED/REOPENED |
责任人 | assignee | STRING | |
根因分类 | root_cause | ENUM | 枚举:METADATA_DEFECT/RULE_DEFECT/ETL_ERROR/BUSINESS_CHANGE |
解决方案 | solution | STRING | |
闭环时间 | close_time | DATETIME |
4、质量评分表
中文名称 | 英文名称 | 数据类型 | 备注 |
评分ID | score_id | STRING | |
被评分的表/字段ID | target_id | STRING | |
评分维度 | dimension | ENUM | 完整性/准确性/一致性 |
得分 | score | DECIMAL(5,2) | 得分(0-100) |
评分日期 | evaluation_date | DATETIME |