大数据

企业元数据管理规范

一、元数据管理总则

1.1 适用范围

  • 适用于企业所有信息系统中的数据资产,包括但不限于:
    • 结构化数据(数据库表、数据仓库)
    • 半结构化数据(JSON/XML文件)
    • 非结构化数据(PDF报告、扫描文档)
    • API接口与数据服务

1.2 管理原则

  1. 统一性:建立企业级元数据标准,消除部门间定义差异
  2. 可追溯性:记录数据从采集到消亡的全生命周期轨迹
  3. 动态性:元数据随数据变更自动更新
  4. 安全性:敏感元数据(如字段责任人联系方式)需加密存储

二、元数据分类规范

2.1 核心元数据类型

类别子类必填属性示例
技术元数据数据结构字段名称、类型、长度、约束条件registered_capital DECIMAL(15,2) NOT NULL
数据存储存储位置、分区规则、保留策略HDFS路径:/data/enterprise/base
数据处理ETL任务名称、SQL脚本版本Spark任务:daily_clean_01
业务元数据业务定义字段业务含义、计算规则"注册资本=实缴资本+认缴资本"
数据关联关联实体、关联条件股东表.credit_code = 企业表.credit_code
质量规则完整性校验、值域范围成立日期必须≤营业期限
管理元数据责任人信息数据所有者、技术维护人、业务负责人责任人:张三(zhangsan@company.com
生命周期创建时间、更新时间、归档策略保留周期:5年(到期自动归档)
安全等级数据敏感级别(L1~L3)L2(需动态脱敏)

2.2 扩展元数据类型

  • 操作元数据:数据访问日志、查询性能指标
  • 语义元数据:行业术语与标准代码映射(如《国民经济行业分类》)
  • 合规元数据:GDPR隐私标记、数据使用授权记录

三、元数据管理流程规范

3.1 元数据采集

  • 自动化采集
    • 数据库:通过JDBC/ODBC接口自动获取表结构
    • 文件系统:扫描文件头信息(如Parquet文件Schema)
    • API服务:解析Swagger文档获取接口定义
  • 手动维护
    • 业务规则录入:通过元数据管理平台表单提交
    • 责任人指定:由数据治理委员会审批确认

3.2 元数据存储

  • 存储架构要求
  • 技术要求
    • 支持版本控制(如Git式版本管理)
    • 实现细粒度权限控制(字段级访问权限)
    • 数据持久化保留≥10年

3.3 元数据维护

  • 变更控制流程
    1. 发起变更请求(如修改字段长度)
    2. 影响分析(自动检测下游影响范围)
    3. 变更审批(需业务+技术负责人双签批)
    4. 执行变更(同步更新所有相关系统)
    5. 变更验证(对比变更前后数据血缘)
  • 版本管理规则
    • 主版本号:重大架构变更(V1.0 → V2.0)
    • 次版本号:新增元数据类型(V2.1 → V2.2)
    • 修订号:日常修正(V2.2.1 → V2.2.2)

四、元数据应用规范

4.1 必须实现的场景

  1. 数据血缘分析
    • 支持正向追溯(从源头到报表)
    • 支持逆向溯源(从报表到源头)
    • 示例:分析企业注册资本字段的加工链路
国家公示系统  原始数据层  清洗转换  数据仓库  风控模型
  1. 影响分析报告
    • 修改字段类型时,自动生成受影响报表清单
    • 示例:修改企业状态枚举值将影响5个下游系统
  2. 智能数据目录
    • 支持自然语言搜索(如“找近3个月更新的企业联系方式”)
    • 自动推荐关联数据(搜索“股东信息”时推荐“企业股权变更记录”)

4.2 推荐实现的场景

  • 数据质量监控:将质量规则写入元数据,自动生成检测任务
  • 成本优化:通过存储元数据识别低频访问数据,自动降级存储
  • 合规审计:基于元数据生成《数据资产清单》供监管审查

五、元数据管理职责矩阵

角色职责关键产出
数据治理委员会审批元数据标准、协调跨部门争议《元数据管理规范V2.1》
数据管理员日常元数据维护、变更审核元数据质量报告(月度)
业务责任人定义业务元数据、确认术语准确性业务术语表(按季度更新)
技术开发团队实现元数据自动采集、保障系统对接元数据API文档
安全审计团队监控敏感元数据访问、执行合规检查元数据安全审计报告(半年度)

六、技术工具要求

6.1 必备功能

  • 自动化采集:支持DB/API/文件等多种数据源
  • 血缘可视化:至少提供3级血缘关系展示
  • 访问控制:基于角色的字段级权限管理
  • 开放API:支持与现有系统集成

6.2 推荐工具对比

工具类型开源方案商业方案适用场景
元数据仓库Apache AtlasCollibra大型企业复杂环境
数据目录DataHubAlation业务用户自助分析
血缘分析MarquezMANTA深度依赖关系追踪

七、合规与审计要求

7.1 必须满足的法规

  • 网络安全法:关键信息基础设施的元数据需境内存储
  • 个人信息保护法:含个人信息的元数据需单独标记
  • 行业规范:金融行业需满足《银行业数据资产管理指引》

7.2 审计检查项

  1. 元数据变更日志是否完整留存
  2. 敏感元数据访问是否有三重审批记录
  3. 是否存在超过180天未更新的僵尸元数据
  4. 业务术语与技术字段的映射一致性

八、实施路线图

8.1 短期(0-3个月)

  • 建立元数据基础框架(含分类标准与采集机制)
  • 完成核心系统(ERP、CRM)元数据录入
  • 上线元数据查询门户(基础版)

8.2 中期(4-12个月)

  • 实现全量数据源元数据自动化采集
  • 构建企业级数据血缘图谱
  • 与数据质量管理平台集成

8.3 长期(1-3年)

  • 实现元数据驱动的智能运维(如自动优化索引)
  • 建立元数据知识图谱(结合NLP技术)
  • 通过ISO 8000数据质量认证

九、常见问题处理

9.1 元数据冲突解决

  • 场景:同一字段在不同系统中定义冲突(如A系统定义"注册资本"单位为万元,B系统定义为元)
  • 处理流程
    1. 发起冲突仲裁请求
    2. 数据治理委员会召开专项会议
    3. 以权威数据源(如工商总局接口)为准
    4. 更新元数据标准并通知相关方

9.2 历史元数据迁移

  • 原则
    • 保留历史版本供审计追溯
    • 对无效元数据标记而非删除
    • 分批迁移(优先迁移活跃数据)
  • 技术方案
-- 示例:历史元数据迁移脚本
INSERT INTO metadata_warehouse 
SELECT * FROM legacy_system 
WHERE last_access_time > '2020-01-01';

附:元数据命名规范示例

# 技术元数据命名规则
[系统缩写]_[模块]_[类型]_[序号]
示例:ERP_FIN_ACC_001 (ERP系统财务模块账户表)

# 业务术语命名规则
[业务域]_[主题]_[属性]_[修饰词]
示例:FIN_LOAN_CONTRACT_NO (金融域贷款合同编号)

本规范应作为企业数据治理体系的核心组成部分,建议每半年进行一次合规性审查,每年发布修订版本。实际执行中需结合行业特性和企业数字化成熟度灵活调整。