数仓|数据模型onedata实践(代码片段)

zhisheng_blog zhisheng_blog     2023-02-17     572

关键词:

数仓建模-实现OneData经验

数据治理问题

  • 数据孤岛:各部门、产品、业务的数据相互隔离,难以通过共性ID打通

  • 重复建设:重复的开发、计算、存储,带来高昂的数据成本

  • 数据歧义:指标定义口径不一致,造成计算偏差,应用困难

OneData体系
OneData是阿里巴巴多年大数据开发和治理实践中沉淀总结的方法论,包含 OneModel、OneService、OneID 三个概念。
OneModel统一数据构建和管理
将指标定位细化为:原子指标、时间周期、修饰词(统计粒度、业务限定, etc),通过这些定义,设计出各类派生指标; 基于数据分层,设计出维度表、明细事实表、汇总事实表。
OneService统一数据服务
基于复用而不是复制数据的思想,能力包括:
利用主题逻辑表屏蔽复杂物理表的主题式数据服务;
一般查询 + OLAP分析 + 在线服务的统一且多样化数据服务;
屏蔽多种异构数据源的跨源数据服务。
OneID统一数据萃取
基于统一的实体识别、连接和标签生产,实现数据通融,包括:
ID自动化识别与连接;
行为元素和行为规则;
标签生产。

指导方针

  • 首先,在建设大数据数据仓库时,要进行充分的业务调研和需求分析。这是数据仓库建设的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功。

  • 其次,进行数据总体架构设计,主要是根据数据域对数据进行划分;按照维度建模理论,构建总线矩阵、抽象出业务过程和维度

  • 再次,对报表需求进行抽象整理出相关指标体系,使用工具完成指标规范定义和模型设计。

  • 最后,就是代码研发和运维

实施流程

业务调研是否充分,将会直接决定数据仓库建设是否成功。

需求调研的途径有两种

  1. 根据与分析师、业务运营人员的沟通(邮件、IM、线下)获知需求;

  2. 对报表系统中现有的报表进行研究分析通过需求调研分析后,就清楚数据要做成什么样的。

很多时候,都是由具体的数据需求驱动数据仓库团队去了解业务系统的业务数据,这两者并没有严格的先后顺序。

数据域划分

  • 数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。

  • 业务过程可以概括为一个个不可拆分的行为事件,如下单、支付、退款。

  • 为保障整个体系的生命力,数据域需要抽象提炼,并且长期维护和更新,但不轻易变动。

  • 在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中或者扩展新的数据域。

构建总线矩阵

在进行充分的业务调研和需求调研后,就要构建总线矩阵了。

需要做两件事情

  1. 明确每个数据域下有哪些业务过程;

  2. 业务过程与哪些维度相关,并定义每个数据域下的业务过程和维度。

总结

OneData的实施过程是一个高度迭代和动态的过程,一般采用螺旋式实施方法。
在总体架构设计完成之后,开始根据数据域进行迭代式模型设计和评审。
在架构设计、规范定义和模型设计等模型实施过程中,都会引入评审机制,以确保模型实施过程的正确性。

end

Flink 从入门到精通 系列文章

基于 Apache Flink 的实时监控告警系统
关于数据中台的深度思考与总结(干干货)
日志收集Agent,阴暗潮湿的地底世界

公众号(zhisheng)里回复 面经、ClickHouse、ES、Flink、 Spring、Java、Kafka、监控 等关键字可以查看更多关键字对应的文章。
点个赞+在看,少个 bug 👇

美团onedata建设探索之路:saas收银运营数仓建设(代码片段)

1.背景随着业务的发展,频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划,导致后期数仓出现了严重的数据质量问题,这给数据治理工作带来了很大的挑战。在数据仓库建设过程中,我们总... 查看详情

基于阿里(onedata)的数仓体系建设

...五、模型设计六、维度设计七、事实表设计八、其他规范OneData是阿里巴巴内部进行数据整合和管理方法体系和工具,其方法论对数仓建模依然有借鉴之处,一起来温故下来自《大数据之路:阿里巴巴大数据实践》的... 查看详情

基于阿里(onedata)的数仓体系建设

...五、模型设计六、维度设计七、事实表设计八、其他规范OneData是阿里巴巴内部进行数据整合和管理方法体系和工具,其方法论对数仓建模依然有借鉴之处,一起来温故下来自《大数据之路:阿里巴巴大数据实践》的... 查看详情

干货:解码onedata,阿里的数仓之路。

免费开通大数据服务:https://www.aliyun.com/product/odps 据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的... 查看详情

数仓埋点体系与归因实践(代码片段)

目录1.埋点体系建设1.1埋点分类1.2开发流程&保障2.数仓建设2.1业务架构图2.2数仓架构图2.3事实表建设2.4维表建设2.5dws表建设3.uuid和归因建设3.1uuid建设3.2归因建设4.数据应用5.未来展望导读:当今是流量为王时代,严选作... 查看详情

数仓埋点体系与归因实践(代码片段)

目录1.埋点体系建设1.1埋点分类1.2开发流程&保障2.数仓建设2.1业务架构图2.2数仓架构图2.3事实表建设2.4维表建设2.5dws表建设3.uuid和归因建设3.1uuid建设3.2归因建设4.数据应用5.未来展望导读:当今是流量为王时代,严选作... 查看详情

数仓第二篇:数据模型(维度建模)(代码片段)

...2ERWin3.3Visio3.4ExcelMapping04.结语本文导航前言:model对于数仓是最核心的东西࿰ 查看详情

实时数仓在有赞的实践(代码片段)

...断发展和商家实时应用场景的不断丰富,有赞在实时数仓建设方面做了大量的尝试和实践。本文主要分享有赞在建设实时数仓过程中所沉淀的经验,内容包括以下五个部分:建设背景应用场景方案设计项目应用未来展... 查看详情

实时数仓在有赞的实践(代码片段)

...断发展和商家实时应用场景的不断丰富,有赞在实时数仓建设方面做了大量的尝试和实践。本文主要分享有赞在建设实时数仓过程中所沉淀的经验,内容包括以下五个部分:建设背景应用场景方案设计项目应用未来展... 查看详情

实时数仓在有赞的实践(代码片段)

...断发展和商家实时应用场景的不断丰富,有赞在实时数仓建设方面做了大量的尝试和实践。本文主要分享有赞在建设实时数仓过程中所沉淀的经验,内容包括以下五个部分:建设背景应用场景方案设计项目应用未来展... 查看详情

有赞实时数仓建设实践与经验(代码片段)

...断发展和商家实时应用场景的不断丰富,有赞在实时数仓建设方面做了大量的尝试和实践。本文主要分享有赞在建设实时数仓过程中所沉淀的经验,内容包括以下五个部分:建设背景应用场景方案设计项目应用未来展... 查看详情

京东——实时数仓治理与实战(代码片段)

关注下面公众号,回复:数据治理 关键字即可获取PPTEND热门内容两年经验斩获蚂蚁/头条/PingCAPOffer,牛逼了快手大数据平台服务化实践深入理解Java内存模型关注我关注我,Java学习不迷路!点个赞+在看࿰... 查看详情

数仓建模理论——高质量数据建模(代码片段)

数仓质量数据模型的概念和意义-DIKW低质量数据模型十宗罪:低质量数据模型的影响数仓必备技能1.建模基础-实体2.建模基础——属性(Attribute)3.域(Domain)NULL值的处理规范化——范式第一范式:原子性&#... 查看详情

hudi+flink实时数仓在顺丰的实践(代码片段)

摘要:本文作者刘杰,介绍了顺丰科技数仓的架构,趟过的一些问题、使用Hudi来优化整个job状态的实践细节,以及未来的一些规划。主要内容为:数仓架构Hudi代码躺过的坑状态优化未来规划顺丰科技早在2019... 查看详情

有道教育数仓建设实践

目录1、整体架构2、数据仓库建设过程2.1业务调研2.2架构设计2.3模型设计2.4模型开发3、未来展望1、整体架构数据源:数据主要来自Mysql、ES、DDB的业务数据,以及kafka的埋点日志数据;数据处理层:基于有数大数据... 查看详情

有道教育数仓建设实践

目录1、整体架构2、数据仓库建设过程2.1业务调研2.2架构设计2.3模型设计2.4模型开发3、未来展望1、整体架构数据源:数据主要来自Mysql、ES、DDB的业务数据,以及kafka的埋点日志数据;数据处理层:基于有数大数据... 查看详情

数仓第二篇:数据模型(维度建模)(代码片段)

...2ERWin3.3Visio3.4ExcelMapping04.结语本文导航前言:model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定了数仓能支撑企业业务多久。为什么大多数企业,数仓都要重建,这不仅仅... 查看详情

最强最全面的数仓建设规范指南(代码片段)

目录一、数据模型架构原则1.数仓分层原则2.主题域划分原则3.数据模型设计原则二、数仓公共开发规范1.层次调用规范2.数据类型规范3.数据冗余规范4.NULL字段处理规范5.指标口径规范6.数据表处理规范7.表的生命周期管理三、数仓... 查看详情