关键词:
1 数仓基本概念
1.1 数据仓库架构
源数据, 数据仓库, 数据应用,具体架构如下:
源数据:该部分数据主要是从生产数据库,线下手工数据和日志数据,集成到dataworks中,形成了数仓的第一层ods层的数据明细
数据仓库:主要是按照业务域,对明细数据进行建模,建立各个业务域的聚合数据和数据模型
数据应用:主要是在数据仓库的基础上,结合公司业务需求,聚合成前端报表展示需要的数据;数据分析需要的数据以及一些用户画像以及数据标签依赖的数据
按照目前企业通行惯例,数仓具体分层架构如下:
1.2 数据仓库具体业务域划分
目前数据根据业务线,划分如下
表1 业务域命名
1.3 数据仓库数据流动方向
ods→dim→dwd→dws→ads
- 切记,数据流动方向只能按照上述方向进行流动,可以跨层,比如 ods dwd dws ads, 或者 ods dim dws ads等,但是,不允许 类似的数据逆向流动
1.4 数据仓库中表命名规范
1.4.1 ods数据源层表命名规范
前缀名+业务域名+实例名(库名)+表名+表更新频次
前缀名
- 按照数仓分层来命名,即ods来命名
业务域名
- 按照上述业务域命名为准,如ilp指代国际小包
实例名
- 是指数据来自数据源的实例名称或者数据库的名字,如uexpress
表名
- 即是在源数据源中的表名或者自定义的线下表的名字
表更新频次
- 表述由两个字符组成,前者表示更新的时间频次,后者表示更新的是表的全量还是增量
举例说明一个实际中使用频次最多的案例 - df ,d:意思为day,指每天更新,同理,y(year),q(quarter),m(month),h(hour),mi(minute);f:意思为full,指全量更新,而增量更新用i指代,是increase的缩写。
而两者可以进行随机组合,比如 hi,表示每小时增量更新
命名为小写,不允许大写
1.4.2 dim维表层表命名规范
前缀名+表名
尽管dim维表层数据跟dwd是同一层,但是按照通用做法,给其单独的前缀,比如;另外需要注意的是,由于dim层的维度表相对固定,所以,可能不定期进行更新或者并不会配置调度,因此需要在后续依赖维表的调度和脚本进行特殊的处理,具体在后续进行介绍。
命名为小写,不允许大写
1.4.3 dwd数据明细层表命名规范
前缀名 + 业务域名 + 表名,具体如下:
前缀名
- 按照数仓分层来命名,即dwd来命名
业务域名
- 按照上述业务域命名为准,如ilp指代国际小包
表名
- 该表名根据模型+业务进行独立命名
关于表名书写规则
- 全部命名为小写,不允许大写
1.4.4 dws数据明细层表命名规范
dws数据明细层命名按照 前缀名 + 业务域名 + 表名,具体如下:
前缀名
- 按照数仓分层来命名,即dws来命名
业务域名
- 按照上述业务域命名为准,如ilp指代国际小包
表名
- 该表名根据模型+业务进行独立命名
关于表名书写规则
- 全部命名为小写,不允许大写
1.4.5 ads数据应用层表命名规范
ads数据应用层命名按照 前缀名 + 业务域名 + 表名,具体如下:前缀名
- 按照数仓分层来命名,即ads来命名
业务域名
- 按照上述业务域命名为准,如ilp指代国际小包
表名
- 该表名根据模型+业务进行独立命名
关于表名书写规则
- 全部命名为小写,不允许大写
大数据开发治理平台dataworks
序言学习下阿里DataWorks的设计理念以及要做的事情cuiyaonan2000@163.com参考文档:https://www.aliyun.com/product/bigdata/idehttps://help.aliyun.com/document_detail/73015.htmlhttps://help.aliyun.com/document_detail/324149.html----数据治理LaunchDataWorks基于阿里云ODPS/EM... 查看详情
hadoop数仓建设之离线数据开发
...们就来介绍一下数据仓库的离线数据开发的过程吧,往期数仓的介绍在下面👇:第一篇:Hadoop之数据仓库概述.第二篇:hadoo 查看详情
数仓基础总结
转载于公众号:五分钟学大数据数仓建设数仓分层数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,... 查看详情
数仓基础总结
转载于公众号:五分钟学大数据数仓建设数仓分层数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,... 查看详情
数仓基础总结
转载于公众号:五分钟学大数据数仓建设数仓分层数仓为什么要分层?用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,... 查看详情
数仓建设教程(代码片段)
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战)上-腾讯云开发者社区-腾讯云(tencent.com)50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战)下_五分钟学大数据的技术博客_51CTO博客#yy... 查看详情
数仓建设教程(代码片段)
50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战)上-腾讯云开发者社区-腾讯云(tencent.com)50000字,数仓建设保姆级教程,离线和实时一网打尽(理论+实战)下_五分钟学大数据的技术博客_51CTO博客#yy... 查看详情
hadoop数仓建设之指标管理
...面👇:第一篇:Hadoop之数据仓库概述.第二篇:hadoop数仓建设之日志采集.第三篇:Hadoop数仓建设之数据同步.第四篇:Hadoop数仓建设之数据模型.🐱最近实习里自己负责 查看详情
hadoop数仓建设之指标管理
...面👇:第一篇:Hadoop之数据仓库概述.第二篇:hadoop数仓建设之日志采集.第三篇:Hadoop数仓建设之数据同步.第四篇:Hadoop数仓建设之数据模型.🐱最近实习里自己负责 查看详情
阿里云云原生一体化数仓—数据治理新能力解读
一、数据治理中心产品简介阿里云DataWorks:一站式大数据开发与治理平台架构大图阿里云DataWorks定位于一站式的大数据开发和治理平台,从下图可以看出,DataWorks与MaxCompute、Hologres等大数据引擎紧密配合,在数据... 查看详情
hadoop数仓建设之数据同步
💗大数据道漫漫,其修远兮,今天继续我们数仓建设的第三篇文章,关于数据同步的知识,没有看过前面文章的同学可以参考下面的链接👇:第一篇:Hadoop之数据仓库概述.第二篇:hadoop数仓建设之日志... 查看详情
关于数仓建设及数据治理的超全概括
目录第一节是数仓建设数仓为什么要分层?数仓分几层最好?如何搭建一个好的数仓?数仓设计维度数仓建模方法实际业务中数仓分层数据层具体实现第二节是数据治理数据治理之道是什么浅谈数据治理方式第一节是... 查看详情
保险数仓建设-kimball
...,对目前的数据提出了新的要求,其中之一就是要做业务数仓。 2.经过和leader的沟通,从业务层面,时间层面,人力层面出发,最终还是使用维度建模的方式来实现,实现的内容更多的是个数据集市或者业务数仓。二.经过:... 查看详情
数仓埋点体系与归因实践(代码片段)
目录1.埋点体系建设1.1埋点分类1.2开发流程&保障2.数仓建设2.1业务架构图2.2数仓架构图2.3事实表建设2.4维表建设2.5dws表建设3.uuid和归因建设3.1uuid建设3.2归因建设4.数据应用5.未来展望导读:当今是流量为王时代,严选作... 查看详情
数仓埋点体系与归因实践(代码片段)
目录1.埋点体系建设1.1埋点分类1.2开发流程&保障2.数仓建设2.1业务架构图2.2数仓架构图2.3事实表建设2.4维表建设2.5dws表建设3.uuid和归因建设3.1uuid建设3.2归因建设4.数据应用5.未来展望导读:当今是流量为王时代,严选作... 查看详情
aliexpress基于flink的广告实时数仓建设
... 放心关注我,获取更多行业的一手消息。摘要:实时数仓以提供低延时数据指标为目的供业务实时决策,本文主要介绍基于Flink的广告实时数仓建设,主要包括以下内容:1.建设背景2.技术架构3.数仓架构4. 实时OLAP5.实时... 查看详情
aliexpress基于flink的广告实时数仓建设
摘要:实时数仓以提供低延时数据指标为目的供业务实时决策,本文主要介绍基于Flink的广告实时数仓建设,主要包括以下内容:1.建设背景2.技术架构3.数仓架构4. 实时OLAP5.实时保障6.未来规划建设背景广告是目前互联网流量... 查看详情
全链路数据治理实操演练营,互联网金融制造等行业都适用!
...理-全域数据集成训练营已上线!大数据开发治理平台DataWorks推出多个大数据训练营(持续更新中),全域数据集成训练营可完成多种数据源、多种网络环境下的离线同步与实时同步。参营还可领取定制无线充、定... 查看详情