大数据

主题域模型-概念模型-逻辑模型-物理模型demo

在DCMM框架下,针对企业工商信息、联系人、合作企业及知识产权(专利/软著)等数据,需分层构建数据模型。以下是按照主题域模型→概念模型→逻辑模型→物理模型的逐层设计方法

一、主题域模型(Subject Area Model)

1. 划分原则

  • 业务视角:按企业核心业务对象划分,确保每个主题域对应一个独立的业务概念。
  • 数据特征:高内聚(同一主题域内数据强相关)、低耦合(主题域间关系明确且最小化)。

2. 主题域定义

主题域名称核心概念包含数据举例关联关系说明
企业主体企业作为法律实体的静态属性工商注册号、名称、注册资本、法人与"企业联系"通过信用代码关联
企业联系企业与内外部实体的沟通渠道联系人姓名、职位、电话、邮箱依赖"企业主体"存在
合作企业与企业有商业合作关系的其他实体合作类型(供应商/客户)、签约时间关联"企业主体"(双方信用代码)
知识产权企业拥有的专利、软著等无形资产专利号、类型、申请日期、状态必须归属某个"企业主体"

3. 主题域关系图

二、概念模型(Conceptual Model)

1. 核心实体识别

  • 企业主体(Enterprise)
    • 属性:信用代码(PK)、法人姓名、注册地址、行业分类
  • 联系人(Contact)
    • 属性:联系人ID(PK)、所属企业(FK)、角色类型(法人/业务对接)、手机号
  • 合作企业(Partner)
    • 属性:合作ID(PK)、本方企业(FK)、对方企业信用代码、合作有效期
  • 知识产权(IP)
    • 属性:IP编号(PK)、所属企业(FK)、类型(专利/软著)、授权日期

2. 实体关系图(ERD)

三、逻辑模型(Logical Model)

1. 关系型数据库设计(第三范式)

表名字段说明(示例)主键/外键约束
dim_enterprisecredit_code(PK), name, legal_rep, reg_address, establish_date, industry_codePK: credit_code
dim_contactcontact_id(PK), credit_code(FK), role_type, phone, email, is_primaryFK: credit_code→enterprise
rel_partnerpartner_id(PK), self_credit_code(FK), partner_credit_code(FK), start_date双FK关联企业表
fact_ipip_id(PK), credit_code(FK), ip_type, apply_date, expire_date, statusFK: credit_code

2. 关键设计点

  • 历史数据处理:在rel_partner表中增加end_date字段跟踪合作状态变化。
  • 数据质量规则dim_contact.phone字段强制符合正则表达式(如国内手机号格式)

四、物理模型(Physical Model)

1. 数据库实现(MySQL示例)

-- 企业主体表(分区按行业代码提高查询效率)
CREATE TABLE dim_enterprise (
    credit_code CHAR(18) PRIMARY KEY,
    name VARCHAR(100) NOT NULL,
    legal_rep VARCHAR(50),
    reg_address TEXT,
    industry_code CHAR(5),
    INDEX idx_industry (industry_code)
) PARTITION BY KEY(industry_code);

-- 联系人表(加密敏感字段)
CREATE TABLE dim_contact (
    contact_id INT AUTO_INCREMENT PRIMARY KEY,
    credit_code CHAR(18),
    role_type ENUM('legal','business','finance'),
    phone VARBINARY(255) COMMENT 'AES加密存储',
    FOREIGN KEY (credit_code) REFERENCES dim_enterprise(credit_code)
);

2. 性能优化措施

  • 索引策略:为所有外键字段建立索引,对fact_ip.apply_date建立时间范围索引。
  • 存储规划:知识产权大文本(如专利说明书)使用对象存储,数据库仅存URL。

五、与DCMM能力等级的对应

  1. 二级(受管理级):完成主题域划分和基础概念模型设计。
  2. 三级(稳健级):逻辑模型实现数据标准化(如统一信用代码格式)。
  3. 四级(量化管理级):物理模型支持数据血缘追踪(如记录IP资产变更日志)。

示例场景
当查询某企业的"专利数量及主要联系人"时,通过credit_code关联dim_enterprisefact_ipdim_contact三表,其中企业主体表作为驱动表,利用索引快速定位数据。此设计满足DCMM对数据集成和业务敏捷性的要求。