数仓学习|初始数仓

<一蓑烟雨任平生> <一蓑烟雨任平生>     2023-01-14     276

关键词:

(1)图解数仓架构

先看图,图解数仓架构:

从以下三个方面去了解数仓:

  • Where:数据仓库的数据从哪里来
  • How:对数据仓库的建设我们要做哪些事情
  • What:数据仓库的应用场景以及它所发挥的作用

(1)先看第一个部分操作系统,就是业务处理系统,OLTP产生的数据大概有三类:

  • DB:业务数据(MySQL),比如下单、送货
  • ClickData:点击流的数据(日志文件),比如用户的点击收藏数据
  • OtherData:比如Tcp过来的数据、第三方接口过来的数据

也就是说数据仓库的数据来源于上面三种数据类型。

(2)第二个部分是数据仓库建设过程中具体的要做哪些事情,大概分为五个部分:

  • 业务架构设计:基于业务做一些领域的划分(领域、规范、指标)
  • 模型设计:明细模型、汇总模型
  • 数据研发:ETL、存储、处理,也就是数据平台建设的过程
  • 数据服务:数据总线、统一接口
  • 元数据管理:对以上过程的元数据做统一管理

数据仓库建设过程中核心的指导思想:

  • OneData:建立统一的、标准的、可共享的一个数据,就是从成本的角度来说,尽可能的减少重复的工作,让数据的获取,数据的开发和数据建设能够简单一些
  • OneService:统一服务,就是所有人的使用都是同一的入口

(3)第三个部分What的部分,提供OLAP的数据分析,能够让数据使用人员非常简便的、高质量的、比较有权威的拿到来自数据仓库的数据

(2)数据仓库的特性

  • 面向主题:与业务相关的数据类型,每个主题对应一个宏观的分析领域
  • 集成:将多个分散的数据源统一成一致的、无歧义的数据格式
  • 历史快照:反映了某一历史时间点的数据快照
  • 静态:数据仓库中的一般不会进行数据更新

那么什么是数据仓库,总结一句话:
数据仓库是一个在任何时候都可以非常方便的提供具备权威可信的数据存储服务

这句话大概概括了三个方面的核心信息:任何时候、非常方面、权威可信

  • 任何时候:就是业务发生变化的时候,数据仓库尽可能的不要发生变化
  • 非常方面:每一个指标的统计能够给开发人员与实施人员提供方面的结果
  • 权威可信:数据仓库中数据内容是精准的

(3)为什么要建立数据仓库

未建立数据仓库所存在的问题

  1. 很难建立和维护汇总数据来源于多个业务系统版本的报表
  2. 没有适当的方式将有价值的数据合并到特定的数据库
  3. 业务系统表结构为事务性能而优化,有时并不适合查询与分析,况且事务处理的优
    先级比分析系统高,所以如果分析系统和事务处理运行在同一硬件之上,分析系统
    往往性能很差。
  4. 多个业务系统数据格式不统
  5. 用户需要看到的显示数据字段,有时在数据库中并不存在
  6. 有误用业务数据的风险

建立数据仓库的好处:

  1. 将多个数据源集成到单一数据存储,可以使用单一数据查询引擎展示数据
  2. 缓解在事务处理数据库上因执行大查询而产生的资源竞争问题
  3. 多数据源整合,统一中心数据视图
  4. 提供数据质量,数据属性规范统
  5. 使数据对于业务用户更有意义

(4)操作性系统,把控数据的三个维度

操作性系统很适合在线应用,主要要求是高可用、高速度、高并发、可恢复和保证
数据一致性、准确性、完整性。


操作性系统,把控数据的三个维度:

  • ACID
  • Operator(操作性)
  • Devise(设计)

(5)操作性系统和分析性系统的区别

分析性系统很是一种快速相应多维分析查询的实现方式。主要的应用场景包括:业
务分析报告,市场管理报告、业务过程管理、预算和预测等。

操作性系统和分析性系统从数据层面和应用层面做了如下对比:

(6)数据仓库架构的演化过程

独立数据集市架构:

Inmon企业信息工厂架构:

Kimball数据仓库架构:

混合型数据仓库架构:

这四种数仓架构在企业中都是有场景的,并不是说一定要选择哪一个,而是根据企业的技术发展水平和业务情况去选择

(7)看似简单的ETL


以上内容仅供参考学习,如有侵权请联系我删除!
如果这篇文章对您有帮助,左下角的大拇指就是对博主最大的鼓励。
您的鼓励就是博主最大的动力!

数仓学习|初始数仓

目录(1)图解数仓架构(2)数据仓库的特性(3)为什么要建立数据仓库(4)操作性系统,把控数据的三个维度(5)操作性系统和分析性系统的区别(6)数据仓库架构的演化过... 查看详情

大数据数仓基础知识学习笔记

学习数据仓库笔记,方便日后查询1、数据仓库主要架构2、数据仓库——ETL3、数据仓库建模(关系(E-R)模型、维度模型、DataVault模型)4、数据集市5、数据仓库实施步骤 查看详情

大数据数仓基础知识学习笔记

学习数据仓库笔记,方便日后查询1、数据仓库主要架构2、数据仓库——ETL3、数据仓库建模(关系(E-R)模型、维度模型、DataVault模型)4、数据集市5、数据仓库实施步骤 查看详情

大数据数仓基础知识学习笔记

...门从业务数据库抽取数据而导致的分析结果不一致问题。数仓面向于数据分析,业务数据库面向于业务系统数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合主要用于历史数据的积存, 查看详情

大数据数仓基础知识学习笔记

...门从业务数据库抽取数据而导致的分析结果不一致问题。数仓面向于数据分析,业务数据库面向于业务系统数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合主要用于历史数据的积存, 查看详情

数仓学习|几种常见的数据同步方式(代码片段)

目录前言(1)常见数据同步方式(1.1)直连同步(1.2)实时增量同步(日志解析)(2)流式数据集成实现前言数据仓库的特性之一是集成,即首先把未经过加工处理的、不同来源的、不... 查看详情

数仓学习|几种常见的数据同步方式(代码片段)

目录前言(1)常见数据同步方式(1.1)直连同步(1.2)实时增量同步(日志解析)(2)流式数据集成实现前言数据仓库的特性之一是集成,即首先把未经过加工处理的、不同来源的、不... 查看详情

数仓系列第11篇:实时数仓

...的发展3.数据仓库建设方法论4.数据仓库架构的演变5.实时数仓案例6.实时数仓与离线数仓的对比导读:本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线数仓的对比六个方面... 查看详情

美团基于flink的实时数仓平台建设新进展

...美团于2018年首次引入Flink实时计算引擎,当时的实时数仓概念还不太普及,平台只提供了FlinkJar任务的生命周期管理和监控报警。2019年,我们注意到实时计算的主要应用场景是解决离线数仓时效性低的问题。离线数仓... 查看详情

说说数仓(6)-关于命名规范

参考技术A数仓总结目录:说说数仓(1)-什么是数仓说说数仓(2)-传统数仓与互联网数仓说说数仓(3)-数仓架构说说数仓(4)-指标字典说说数仓(5)-最重要的维度之日期维度说说数仓(6)-关于命名规范说说数仓(7)-浅谈数据治理说说数仓(8)-... 查看详情

hadoop数仓建设之日志采集

...f0c;都会有自己的数据仓库建设方式,我们这里介绍的数仓是比较贴近这些大型企业的生产环境。ps:其实主要是因为实习这里的数仓建设很成熟, 查看详情

hive数仓项目之数仓分层数仓工具的使用(代码片段)

往期内容:Hive数仓项目架构说明、环境搭建及数据仓库基础知识今日内容:1)教育项目数仓分层(知道,明确每一层的作用)2)数仓工具的相关的使用(操作)2.1HUE相关的使用(操作HDFSHIVE,OOZIE)2.2sqoop的基本使用操作访问咨询主题看板... 查看详情

flink实时数仓伪分布虚拟机(所有组件部署完成)(代码片段)

Flink实时数仓伪分布虚拟机(所有组件部署完成)——镜像下载博主通过学习尚硅谷的Flink的实时数仓,将部署好的实时数仓虚拟机打包成ovf文件,由于博主电脑内存较小,博主使用了伪分布式集群搭建,全流程... 查看详情

实时数仓与离线数仓架构对比flink消费流程

实时数仓架构图:离线数仓:与离线数仓区别:MySQL业务数据采集改用FlinkCDC;FlinkCDC与Maxwell处理方式和Cannal一样通过监控binlog方式(行级别),而Sqoop是通过MR方式处理数据,这种方式太慢日志数据,... 查看详情

如何设计好数仓?数仓到底是什么?---详解

数据仓库1、什么是数仓?--数据仓库概念2、OLTP和OLAP区别3、数据仓库的特点3.1面向主题3.2数据集成3.3非易失3.4时变4、数据仓库系统架构4.1系统结构图4.2、源数据4.3、ETL4.4、数据仓库与数据集市4.5、应用系统4.6、用户5、维度... 查看详情

数仓学习|几种常见的数据同步方式(代码片段)

...DB数据而言(比如存储在MySQL中),将数据采集并导入到数仓中(通常是Hive或者MaxCompute)是非常重要的一个环节。那么,该如何将业务DB数据高效准确地同步到数仓中呢?一般企业会使用两种方案:直连同步实时增量同... 查看详情

数据仓库(13)大数据数仓经典最值得阅读书籍推荐

从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。书籍推荐《数据仓库... 查看详情

数仓系列第7篇:数仓olap技术

...SQL)四、结束语导读:数据应用,是真正体现数仓价值的部分,包括且又不局限于数 查看详情