文章
标准定义通用模板
1️⃣ 并不是所有字段都必须做标准
实际数据治理中,通常会分为几个层级来决定哪些字段需要定义标准:
- 核心字段/关键字段(必须做标准)
- 决策相关或业务核心字段,例如:客户ID、手机号、订单金额、产品类别等
- 这些字段直接影响分析、报表、系统一致性
- 标准内容:类型、长度、取值范围、业务规则
- 常用字段(建议做标准)
- 经常使用、跨系统交换的字段
- 可以先定义基础标准(类型、长度、参考值),业务规则可视情况
- 辅助字段/系统内部字段(可不做标准)
- 临时字段、日志字段、系统内部状态标识等
- 只做必要的基础校验即可
💡 经验法则:先做“核心+常用字段”,逐步覆盖其他字段。避免一开始就对所有字段强制标准化,成本高且难维护。
2️⃣ 标准定义的通用模板
在数据治理项目里,一般会建立一个 “数据标准定义表格” 或 “数据标准元数据表”,包含字段需要定义的核心属性:
| 属性类别 | 属性名称 | 描述 | 示例(手机号) |
|---|---|---|---|
| 基础信息 | 字段名称 | 系统或业务字段名称 | mobile_number |
| 基础信息 | 字段中文名 | 业务可读名称 | 手机号 |
| 基础信息 | 数据类型 | 字段类型(string、number、date等) | string |
| 基础信息 | 字段长度 | 字段最大长度 | 11 |
| 基础信息 | 是否必填 | 是否允许为空 | 是 |
| 参考值/码表 | 参考码表 | 是否有可复用的参考值 | 无(直接格式) |
| 业务规则 | 校验规则 | 可执行规则或正则 | ^1[3-9]\d{9}$ |
| 业务规则 | 描述/说明 | 业务约束说明 | 必须为中国手机号 |
| 数据分类 | 业务对象 | 所属业务实体 | 客户 |
| 数据分类 | 数据敏感性 | 是否涉及敏感信息 | 是(个人信息) |
| 责任 | 数据负责人 | 谁负责维护 | 客户管理团队 |
| 生命周期 | 生效时间 | 标准生效日期 | 2025-01-01 |
这个表格几乎涵盖了 DCMM、ISO/IEC 11179、企业数据标准实践中常用的字段标准属性。
3️⃣ 标准 vs 校验规则的关系
- 标准 = 定义“应该是什么”,存储在标准表格里
- 规则 = 基于标准实现的数据校验逻辑(正则、范围、唯一性约束等)
- 元数据系统 可以读取标准表格,自动生成规则或辅助规则管理
数据标准体系 + 字段标准模板 + 规则落地示意图的逻辑结构图,展示从“标准定义”到“规则落地”的完整流程。
数据标准体系图(逻辑示意)
┌─────────────────────────────┐
│ 数据标准体系 │
│ 统一规范、概念定义、属性模板 │
└─────────────┬───────────────┘
│
┌────────────────────┼─────────────────────┐
│ │ │
┌─────────────┐ ┌──────────────┐ ┌─────────────┐
│ 业务术语/概念│ │ 数据元/字段 │ │ 指标/指标数据│
│ Customer、手机号 │ │ mobile_number │ │ 活跃用户数、订单金额 │
└─────┬────────┘ └─────┬────────┘ └─────┬────────┘
│ │ │
│ │ │
│ ┌───────┴─────────┐ │
│ │ 字段标准模板 │ │
│ │ ─────────────── │ │
│ │ 字段名称 │ mobile_number
│ │ 字段中文名 │ 手机号
│ │ 类型 │ string
│ │ 长度 │ 11
│ │ 是否必填 │ 是
│ │ 参考码表 │ 无
│ │ 业务规则 │ 正则 ^1[3-9]\d{9}$
│ │ 描述/说明 │ 必须为中国手机号
│ │ 数据分类 │ 客户
│ │ 数据敏感性 │ 是
│ │ 数据负责人 │ 客户管理团队
│ │ 生效时间 │ 2025-01-01
│ └───────────────┘
│
▼
┌─────────────────────────────┐
│ 数据规则/校验 │
│ ────────────────────────── │
│ 基础校验:类型、长度、非空 │
│ 业务校验:正则表达式匹配 │
│ 参考值校验:码表匹配 │
│ 唯一性校验:唯一约束 │
└─────────────────────────────┘
│
▼
┌─────────────────────────────┐
│ 数据落地与监控 │
│ ────────────────────────── │
│ ETL/数据入仓时校验字段规则 │
│ 数据质量监控、异常报警 │
└─────────────────────────────┘
图中关键逻辑
- 数据标准体系
- 提供统一规范,是所有规则和校验的依据
- 包括业务术语、数据元、指标口径
- 字段标准模板
- 每个重要字段都可以定义一个模板
- 包含基础属性(类型、长度)、业务规则(正则、范围)、责任人、敏感性等
- 数据规则/校验
- 基于标准生成可执行规则
- 可包括基础校验、业务校验、参考值校验等
- 数据落地与监控
- 在 ETL、数据仓库、数据湖入库时执行
- 通过规则保证数据符合标准,并提供监控和报警
💡 要点总结
- 不是每个字段都做标准:优先核心字段 + 常用字段
- 字段模板是标准的落地形式:方便管理、自动化生成规则
- 规则是标准的执行层:保证数据质量与一致性