文章
2万字揭秘阿里巴巴数据治理平台建设经验记录



一、数据生产规范性治理
我们将数据规范性放在第一个讲,这是很多数据治理问题的源头,不管是第一阶段的生产稳定,还是第二阶段的应用提效,都和数据规范性紧密相关,我们举几个简单的例子:
- 数仓架构混乱
跨bu、跨团队依赖较多,数仓架构逐渐混乱,逐步有失控趋势,面临重建危机。 - 数据开发效率低
业务含义不清、数据模型设计与物理表开发断链,有了模型开发效率也没提高。 - 数据指标构建难
业务需要的数据指标开发较慢,类似指标没有批量构建的方式,缺乏指标的统一管理。 - 找数用数难
业务数据含义口口相传,人工问口径耗费大量时间,交接人员也不清楚数据情况。 - 数据稳定性差
数据混乱,导致数据产出时效受影响,数据质量稳定性不高。 - 数据成本不断增长
数据随意开发、大量任务重复计算、找不到也治不了,导致成本不断增加。
所以,我们希望在第一部分就和大家强调下数据规范的重要性,有些企业由于业务的发展,往往会忽视规范的建设,经常采用“先污染,后治理”的方式,然后陷入各类业务需求,而良好的数据规范建设往往可以起到“事半功倍”的效果。DataWorks的智能数据建模同天猫、淘宝、盒马、本地生活、菜鸟等多个事业部进行共创,我们以某个事业部为例为大家讲解下数仓规范性的建设思路,该业务数仓团队从2020年开始与DataWorks团队不断共建智能数据建模产品,从最初版简单的录入系统,到集成逆向建模、多表克隆、多种引擎的代码模式、excel交互等功能,最终让整个数仓团队的开发效率提升30%,并且下线15%不规范的冗余的数据表。同时在整个数仓公共层团队与业务数据开发团队进行推广,全员使用,成为事业部落地数仓规范的统一平台。





1.事前:在研发过程中保障代码质量,提前规避质量问题,通过代码检测、质量自测的能力让研发可以提前消灭问题;
2.事前:让测试更有效地进行质量测试,提供上线前的冒烟测试、对比测试,从之前仅完成基础功能验证的测试,完善拓展其测试维度,不断积累围绕业务承诺要求的规则,从而让研发和运维都能够进行快速地自动化测试,持续进行数据链路的部署更新
3.事中:数据质量检测任务直接关联调度任务产出。做到数据即产出即检查,当高保障数据任务运行时,上游数据出现脏数据时,能及时阻断任务,规避质量问题数据对下游的影响,并通过告警机制及时提醒用户进行任务处理。







