大数据

元数据与元模型

1. 关键概念拆解

(1)元数据(Metadata)

即"描述数据的数据",例如:

  • 数据库表的字段名称、数据类型、业务含义
  • 数据报表的生成规则、负责人、更新频率

(2)元模型(Meta-Model)

定义:描述元数据属性及其关系的模型,即"元数据的结构定义"。
类比理解

  • 如同"模具"决定"产品"的形状,元模型决定了元数据的组织方式。
  • 例如:定义"所有业务字段的元数据必须包含字段名称、数据类型、业务定义、敏感等级4个属性"就是一个元模型。

(3)元模型分类

根据元数据的不同用途和特征,将元模型划分为若干类别,并为每类制定专属的定义规则。

2. 如何理解DCMM的要求?

DCMM要求组织通过以下步骤实现规范化管理:

具体任务解析

  1. 对元模型进行分类
    根据元数据描述的对象不同,划分元模型类别,例如:
    • 技术元模型:描述数据的技术属性(字段类型、长度、约束等)
    • 业务元模型:描述数据的业务属性(KPI定义、业务规则、责任人等)
    • 管理元模型:描述数据的管理属性(密级、保留期限、合规要求等)
  2. 定义每类元模型的结构
    为每类元模型设计固定的属性模板,例如:
| 元模型类别 | 必含属性示例 |
|------------|--------------|
| **技术元模型** | 物理字段名、数据类型、是否主键、索引类型 |
| **业务元模型** | 业务术语、计算逻辑、关联流程、权威来源 |
| **操作元模型** | 创建时间、最后更新人、访问日志 |

3.建立分类管理机制

  • 不同类别的元模型由不同角色维护(如技术元模型由DBA负责,业务元模型由业务分析师负责)
  • 在元数据管理工具中设置分类标签和校验规则

    3. 实际案例说明

    案例:客户数据的元模型管理

    1. 分类:客户数据涉及三类元模型
      • 技术元模型(存储于数据库)
    CREATE TABLE customer (
      cust_id VARCHAR(20) PRIMARY KEY,  -- 物理字段名+数据类型+约束
      cust_name NVARCHAR(100) NOT NULL
    )

    业务元模型(存储于元数据仓库)

    {
      "业务术语": "客户编号",
      "定义": "唯一标识客户的编码,由地区码+序列号组成",
      "权威系统": "CRM"
    }

    管理元模型(存储于数据治理平台)

    sensitivity_level: PII
    retention_policy: 10年
    access_control: 销售部可读写

    2.管理效果

    • 开发人员通过技术元模型建表
    • 业务人员通过业务元模型理解数据含义
    • 法务团队通过管理元模型确保合规

      4. 实施价值

      通过元模型分类管理可实现:

      • 标准化:统一元数据描述方式,避免不同系统元数据定义混乱
      • 高效检索:按分类快速定位元数据(如快速查找所有包含PII数据的字段)
      • 自动化治理:基于元模型自动校验数据质量(如检查必填业务定义是否缺失)

      关键点:元模型分类不是技术上的硬性划分,而是根据组织的数据管理需求设计的逻辑框架,最终目标是让元数据更容易被理解和利用。