一、元数据管理总则
1.1 适用范围
- 适用于企业所有信息系统中的数据资产,包括但不限于:
- 结构化数据(数据库表、数据仓库)
- 半结构化数据(JSON/XML文件)
- 非结构化数据(PDF报告、扫描文档)
- API接口与数据服务
1.2 管理原则
- 统一性:建立企业级元数据标准,消除部门间定义差异
- 可追溯性:记录数据从采集到消亡的全生命周期轨迹
- 动态性:元数据随数据变更自动更新
- 安全性:敏感元数据(如字段责任人联系方式)需加密存储
二、元数据分类规范
2.1 核心元数据类型
类别 | 子类 | 必填属性 | 示例 |
---|
技术元数据 | 数据结构 | 字段名称、类型、长度、约束条件 | registered_capital DECIMAL(15,2) NOT NULL |
| 数据存储 | 存储位置、分区规则、保留策略 | HDFS路径:/data/enterprise/base |
| 数据处理 | ETL任务名称、SQL脚本版本 | Spark任务:daily_clean_01 |
业务元数据 | 业务定义 | 字段业务含义、计算规则 | "注册资本=实缴资本+认缴资本" |
| 数据关联 | 关联实体、关联条件 | 股东表.credit_code = 企业表.credit_code |
| 质量规则 | 完整性校验、值域范围 | 成立日期 必须≤营业期限 |
管理元数据 | 责任人信息 | 数据所有者、技术维护人、业务负责人 | 责任人:张三(zhangsan@company.com) |
| 生命周期 | 创建时间、更新时间、归档策略 | 保留周期:5年(到期自动归档) |
| 安全等级 | 数据敏感级别(L1~L3) | L2(需动态脱敏) |
2.2 扩展元数据类型
- 操作元数据:数据访问日志、查询性能指标
- 语义元数据:行业术语与标准代码映射(如《国民经济行业分类》)
- 合规元数据:GDPR隐私标记、数据使用授权记录
三、元数据管理流程规范
3.1 元数据采集
- 自动化采集:
- 数据库:通过JDBC/ODBC接口自动获取表结构
- 文件系统:扫描文件头信息(如Parquet文件Schema)
- API服务:解析Swagger文档获取接口定义
- 手动维护:
- 业务规则录入:通过元数据管理平台表单提交
- 责任人指定:由数据治理委员会审批确认
3.2 元数据存储
- 技术要求:
- 支持版本控制(如Git式版本管理)
- 实现细粒度权限控制(字段级访问权限)
- 数据持久化保留≥10年
3.3 元数据维护
- 变更控制流程:
- 发起变更请求(如修改字段长度)
- 影响分析(自动检测下游影响范围)
- 变更审批(需业务+技术负责人双签批)
- 执行变更(同步更新所有相关系统)
- 变更验证(对比变更前后数据血缘)
- 版本管理规则:
- 主版本号:重大架构变更(V1.0 → V2.0)
- 次版本号:新增元数据类型(V2.1 → V2.2)
- 修订号:日常修正(V2.2.1 → V2.2.2)
四、元数据应用规范
4.1 必须实现的场景
- 数据血缘分析:
- 支持正向追溯(从源头到报表)
- 支持逆向溯源(从报表到源头)
- 示例:分析企业注册资本字段的加工链路
国家公示系统 → 原始数据层 → 清洗转换 → 数据仓库 → 风控模型
- 影响分析报告:
- 修改字段类型时,自动生成受影响报表清单
- 示例:修改
企业状态
枚举值将影响5个下游系统
- 智能数据目录:
- 支持自然语言搜索(如“找近3个月更新的企业联系方式”)
- 自动推荐关联数据(搜索“股东信息”时推荐“企业股权变更记录”)
4.2 推荐实现的场景
- 数据质量监控:将质量规则写入元数据,自动生成检测任务
- 成本优化:通过存储元数据识别低频访问数据,自动降级存储
- 合规审计:基于元数据生成《数据资产清单》供监管审查
五、元数据管理职责矩阵
角色 | 职责 | 关键产出 |
---|
数据治理委员会 | 审批元数据标准、协调跨部门争议 | 《元数据管理规范V2.1》 |
数据管理员 | 日常元数据维护、变更审核 | 元数据质量报告(月度) |
业务责任人 | 定义业务元数据、确认术语准确性 | 业务术语表(按季度更新) |
技术开发团队 | 实现元数据自动采集、保障系统对接 | 元数据API文档 |
安全审计团队 | 监控敏感元数据访问、执行合规检查 | 元数据安全审计报告(半年度) |
六、技术工具要求
6.1 必备功能
- 自动化采集:支持DB/API/文件等多种数据源
- 血缘可视化:至少提供3级血缘关系展示
- 访问控制:基于角色的字段级权限管理
- 开放API:支持与现有系统集成
6.2 推荐工具对比
工具类型 | 开源方案 | 商业方案 | 适用场景 |
---|
元数据仓库 | Apache Atlas | Collibra | 大型企业复杂环境 |
数据目录 | DataHub | Alation | 业务用户自助分析 |
血缘分析 | Marquez | MANTA | 深度依赖关系追踪 |
七、合规与审计要求
7.1 必须满足的法规
- 网络安全法:关键信息基础设施的元数据需境内存储
- 个人信息保护法:含个人信息的元数据需单独标记
- 行业规范:金融行业需满足《银行业数据资产管理指引》
7.2 审计检查项
- 元数据变更日志是否完整留存
- 敏感元数据访问是否有三重审批记录
- 是否存在超过180天未更新的僵尸元数据
- 业务术语与技术字段的映射一致性
八、实施路线图
8.1 短期(0-3个月)
- 建立元数据基础框架(含分类标准与采集机制)
- 完成核心系统(ERP、CRM)元数据录入
- 上线元数据查询门户(基础版)
8.2 中期(4-12个月)
- 实现全量数据源元数据自动化采集
- 构建企业级数据血缘图谱
- 与数据质量管理平台集成
8.3 长期(1-3年)
- 实现元数据驱动的智能运维(如自动优化索引)
- 建立元数据知识图谱(结合NLP技术)
- 通过ISO 8000数据质量认证
九、常见问题处理
9.1 元数据冲突解决
- 场景:同一字段在不同系统中定义冲突(如A系统定义"注册资本"单位为万元,B系统定义为元)
- 处理流程:
- 发起冲突仲裁请求
- 数据治理委员会召开专项会议
- 以权威数据源(如工商总局接口)为准
- 更新元数据标准并通知相关方
9.2 历史元数据迁移
- 原则:
- 保留历史版本供审计追溯
- 对无效元数据标记而非删除
- 分批迁移(优先迁移活跃数据)
- 技术方案:
-- 示例:历史元数据迁移脚本
INSERT INTO metadata_warehouse
SELECT * FROM legacy_system
WHERE last_access_time > '2020-01-01';
附:元数据命名规范示例
# 技术元数据命名规则
[系统缩写]_[模块]_[类型]_[序号]
示例:ERP_FIN_ACC_001 (ERP系统财务模块账户表)
# 业务术语命名规则
[业务域]_[主题]_[属性]_[修饰词]
示例:FIN_LOAN_CONTRACT_NO (金融域贷款合同编号)
本规范应作为企业数据治理体系的核心组成部分,建议每半年进行一次合规性审查,每年发布修订版本。实际执行中需结合行业特性和企业数字化成熟度灵活调整。