大数据, 美好生活

数据质量管理方案

一、概述

数据质量管理是以元数据为基础、规则引擎为核心、闭环优化为目标的持续治理过程,通过自动化的校验->分析->修复->预防机制,确保数据在完整性、准确性、一致性等方面满足业务需求,具体包含:

1、治理基础:

  • 依赖技术/业务/管理元数据构建数据血缘网络
  • 建立规则库(基础校验规则、业务规则、合规规则)

2、核心流程

配置质量规则脚本->调度执行->结果记录与分析->分级预

3、高阶能力

  • 根原因分析定位数据缺陷源头(技术/流程/管理问题)
  • 通过优化元数据定义和规则逻辑预防问题复发

3、价值输出

  • 量化数据健康度(质量评分卡)
  • 形成“发现问题->应急处理->体系优化”的闭环

二、元数据-规则-质量动态联动

数据质量管理是通过元数据驱动的规则化治理手动,实现从数据缺陷检测、根因分析到体系优化的全生命周期管理。

增加问题跟踪模块将预警推送转化为可跟踪的工单,记录责任人处理进度,闭环后归档。

"已解决"的问题为何仍需优化元数据/规则。

(1)根本性修复需求

表面问题可能通过临时措施解决(如人工修正错误数据),但需通过优化元数据/规则预防同类问题复发。
示例:

  • 问题现象:报表中"客户年龄"字段出现负数。
  • 临时解决:手动修正该数据。
  • 规则优化:在元数据中增加取值范围≥0的约束,并添加质量校验规则。

流程图:

(2)元数据与规则的动态关系

问题类型优化目标案例
数据定义缺陷更新业务元数据业务指标口径描述不清->补充定义
校验遗漏新增规则未检测跨系统数据不一致->新增对比规则
技术实现错误修改技术元数据字段类型与实际不符->修正元数据类型

三、模型设计

1、调度信息表

中文名称英文名称数据类型备注
调度任务IDschedule_idSTRING 
关联规则IDrule_idSTRING外键,关联规则库表
任务类型task_typeSTRING枚举值:实时校验/周期扫描/临时任务
调度周期cron_expressionSTRING调度表达式如:0 0 12 * * ?
检查目标类型target_typeENUMTABLE(表级)/FIELD(字段级)/CROSS_TABLE(跨表)
检查目标IDtarget_idSTRINGtable_id/field_id
任务状态statusENUMENABLED/DISABLED/DEPRECATED
责任人ownerSTRING

2、调度执行结果表

中文名称英文名称数据类型备注
执行结果IDresult_idSTRING 
调度任务IDschedule_idSTRING外键
检查时间check_timeDATETIME 
耗时(ms)cost_timeBIGINT执行耗时
检查记录数checked_countBIGINT被检数据量
问题记录数error_countBIGINTJSON格式如{“phone”: “123456”}
通过率pass_rateDECIMAL(5,2)计算公式:(checked_count-error_count)/checked_count
问题示例数据sample_dataSTRING示例:{"field":"phone","error_type":"FORMAT","bad_records":["123456"]}

3、问题跟踪表

中文名称英文名称数据类型备注
问题IDissue_idSTRING 
执行结果IDresult_idSTRING 
问题类型issue_typeENUM枚举:DATA_MISSING/FORMAT_ERROR/LOGIC_CONFLICT等
严重等级severityENUMP0(阻断性)/P1(严重)/P2(一般)/P3(提示)
当前状态statusENUMOPEN/IN_PROGRESS/RESOLVED/CLOSED/REOPENED
责任人assigneeSTRING 
根因分类root_causeENUM枚举:METADATA_DEFECT/RULE_DEFECT/ETL_ERROR/BUSINESS_CHANGE
解决方案solutionSTRING 
闭环时间close_timeDATETIME

4、质量评分表

中文名称英文名称数据类型备注
评分IDscore_idSTRING 
被评分的表/字段IDtarget_idSTRING 
评分维度dimensionENUM完整性/准确性/一致性
得分scoreDECIMAL(5,2)得分(0-100)
评分日期evaluation_dateDATETIME