大数据

标准定义通用模板

1️⃣ 并不是所有字段都必须做标准

实际数据治理中,通常会分为几个层级来决定哪些字段需要定义标准:

  1. 核心字段/关键字段(必须做标准)
    • 决策相关或业务核心字段,例如:客户ID、手机号、订单金额、产品类别等
    • 这些字段直接影响分析、报表、系统一致性
    • 标准内容:类型、长度、取值范围、业务规则
  2. 常用字段(建议做标准)
    • 经常使用、跨系统交换的字段
    • 可以先定义基础标准(类型、长度、参考值),业务规则可视情况
  3. 辅助字段/系统内部字段(可不做标准)
    • 临时字段、日志字段、系统内部状态标识等
    • 只做必要的基础校验即可

💡 经验法则:先做“核心+常用字段”,逐步覆盖其他字段。避免一开始就对所有字段强制标准化,成本高且难维护。

2️⃣ 标准定义的通用模板

在数据治理项目里,一般会建立一个 “数据标准定义表格”“数据标准元数据表”,包含字段需要定义的核心属性:

属性类别属性名称描述示例(手机号)
基础信息字段名称系统或业务字段名称mobile_number
基础信息字段中文名业务可读名称手机号
基础信息数据类型字段类型(string、number、date等)string
基础信息字段长度字段最大长度11
基础信息是否必填是否允许为空
参考值/码表参考码表是否有可复用的参考值无(直接格式)
业务规则校验规则可执行规则或正则^1[3-9]\d{9}$
业务规则描述/说明业务约束说明必须为中国手机号
数据分类业务对象所属业务实体客户
数据分类数据敏感性是否涉及敏感信息是(个人信息)
责任数据负责人谁负责维护客户管理团队
生命周期生效时间标准生效日期2025-01-01

这个表格几乎涵盖了 DCMM、ISO/IEC 11179、企业数据标准实践中常用的字段标准属性。

3️⃣ 标准 vs 校验规则的关系

  • 标准 = 定义“应该是什么”,存储在标准表格里
  • 规则 = 基于标准实现的数据校验逻辑(正则、范围、唯一性约束等)
  • 元数据系统 可以读取标准表格,自动生成规则或辅助规则管理

数据标准体系 + 字段标准模板 + 规则落地示意图的逻辑结构图,展示从“标准定义”到“规则落地”的完整流程。

数据标准体系图(逻辑示意)

             ┌─────────────────────────────┐
             │         数据标准体系          │
             │  统一规范、概念定义、属性模板 │
             └─────────────┬───────────────┘

      ┌────────────────────┼─────────────────────┐
      │                    │                     │
┌─────────────┐    ┌──────────────┐     ┌─────────────┐
│ 业务术语/概念│    │ 数据元/字段  │     │ 指标/指标数据│
│ Customer、手机号 │  │ mobile_number │     │ 活跃用户数、订单金额 │
└─────┬────────┘    └─────┬────────┘     └─────┬────────┘
      │                  │                     │
      │                  │                     │
      │          ┌───────┴─────────┐           │
      │          │  字段标准模板    │           │
      │          │ ─────────────── │           │
      │          │ 字段名称        │ mobile_number
      │          │ 字段中文名      │ 手机号
      │          │ 类型            │ string
      │          │ 长度            │ 11
      │          │ 是否必填        │ 是
      │          │ 参考码表        │ 无
      │          │ 业务规则        │ 正则 ^1[3-9]\d{9}$
      │          │ 描述/说明       │ 必须为中国手机号
      │          │ 数据分类        │ 客户
      │          │ 数据敏感性      │ 是
      │          │ 数据负责人      │ 客户管理团队
      │          │ 生效时间        │ 2025-01-01
      │          └───────────────┘


┌─────────────────────────────┐
│       数据规则/校验          │
│ ────────────────────────── │
│ 基础校验:类型、长度、非空   │
│ 业务校验:正则表达式匹配    │
│ 参考值校验:码表匹配        │
│ 唯一性校验:唯一约束        │
└─────────────────────────────┘


┌─────────────────────────────┐
│       数据落地与监控          │
│ ────────────────────────── │
│ ETL/数据入仓时校验字段规则    │
│ 数据质量监控、异常报警        │
└─────────────────────────────┘

图中关键逻辑

  1. 数据标准体系
    • 提供统一规范,是所有规则和校验的依据
    • 包括业务术语、数据元、指标口径
  2. 字段标准模板
    • 每个重要字段都可以定义一个模板
    • 包含基础属性(类型、长度)、业务规则(正则、范围)、责任人、敏感性等
  3. 数据规则/校验
    • 基于标准生成可执行规则
    • 可包括基础校验、业务校验、参考值校验等
  4. 数据落地与监控
    • 在 ETL、数据仓库、数据湖入库时执行
    • 通过规则保证数据符合标准,并提供监控和报警

💡 要点总结

  • 不是每个字段都做标准:优先核心字段 + 常用字段
  • 字段模板是标准的落地形式:方便管理、自动化生成规则
  • 规则是标准的执行层:保证数据质量与一致性