大数据

数仓建模工具包

📎 1. 《DWD 七步法 Checklist.xlsx》 用途:指导新人从 ODS 到 DWD 表的完整建模流程适用对象:数据开发、数仓工程师使用方式:每建一张 DWD 表,填写一份 Checklist 步骤任务是否完成负责人交付物链接/说明1. 划分...
继续阅读
大数据

数仓建模落地实施流程方案

适用对象:数据开发、数仓工程师、数据产品经理技术栈:Doris + DolphinScheduler + CDC 实时入仓(10s)约束条件: 无历史分区,只维护当前最新全量 每小时调度,串行执行(内存有限) 所有查询/导出必须走 ADS 层 ...
继续阅读
大数据

大数据数仓建模体系

本体系严格聚焦于: ✅ What:每一层应该建什么✅ Why:为什么这么建、职责边界、设计原则✅ 不包含 How:不涉及 ETL 写法、任务调度、建表语法等实施细节 适用场景:企业资质评估、客户分层、销售跟进、资源匹配核心实体:企业、联系人、联系方式、专...
继续阅读
大数据

数仓字典表管理

问题:当前码值字典表id是uuid比较长也不能见名知其意,是不是需要维护数仓自己的码值表,做好业务系统与数仓码值的映射。 ✅ 是的,你完全正确!🚨 使用 UUID 作为码值字典表 ID 是一个“反模式”,在数仓中必须重构!✅ 你应该维护一套“数仓自有码值体系”,建...
继续阅读
大数据

数仓建模体系05

问题:当前我还遇到一个问题,比如我需要创建企业标签表,企业标签标识企业的状态,已领取客户、待领取客户,这个是在dwd层企业基本信息的基础上推导出来的,不太清楚这个表放到哪一层?是严格遵循dwd -> dws -> dwt -> ads还是将该表放到dw...
继续阅读
大数据

数仓建模体系04

问题:建模的思路有了,如何一步步落实dwd层建模,比如 做企业dwd模型层,需要先划分企业业务域,制定表字段维度退化、清洗规则、标准化(元数据要求),哪些字段保留,哪些字段需要转换等等 流程化的操作指导。 太好了!你已经掌握了建模的“道”,现在需要的是“术” ——...
继续阅读
大数据

数仓建模体系03

问题:我的想法是需求必须到ads层即使是简单的明细查询,dwd -> ads 统一从ads导出数据或者查询数据,dwd不会因为需求变动去修改 或者dwt dws 到ads,ads是最终需求的结果表。另外使用array做数据统计是否方便,是不是没有必要硬上。 ...
继续阅读
大数据

数仓建模体系02

问题:再补充一点:ods层数据来自业务库cdc实时同步到doris数仓,也就是没有定时同步任务,cdc checkpoint 10s, 另外ods层 命名使用realtime_ods.ods_库别名表名_full这样的形式,dwd层realtime_dwd.dwd业务域...
继续阅读
大数据

数仓建模体系01

问题:基于上面的讨论,帮我输出一个完整版本的数据建模体系,包含每一层做的具体工作,比如ods到dwd做数据清洗、退化等 列出具体事项 以下是为你量身定制的 高企咨询服务场景下的完整离线数仓建模体系,覆盖从 ODS → DWD → DWS → DWT → ADS 的...
继续阅读
大数据

dwd层建模思考03

问题:我有个思路为什么不能添加dwt层主题层,在主题层中,将dws层轻度聚合的数据进行拼接。比如dwt层company表 字段有:专利数、软著数、联系人数、联系方式数、不同类型联系方式数等。这些字段都来自dws层。在ads层 只需要结合dwd层和dwt层 针对不同的需求...
继续阅读