数仓第一篇:基础架构

浊酒南街 浊酒南街     2022-10-22     284

关键词:

目录

01. 架构演进

离线数据仓库到实时数据仓库,从lambda架构到kappa架构、再到混合架构。

02. 逻辑分层

数仓分层,一般按ods->dw->dm整体架构。不同的企业,不同的业务场景,有衍生出不同的分层架构模式。例如经典四层架构:ods->dwd->dws-ads等;

技术选型,传统数仓一般以Oracle、greenplum、teradata 等,互联网数仓一般以Hadoop生态圈为主,离线以Hive为核心,准实时以spark为核心,实时以flink为核心构建。

03. 数据调研

技术选型,传统数仓一般以Oracle、greenplum、teradata 等,互联网数仓一般以Hadoop生态圈为主,离线以Hive为核心,准实时以spark为核心,实时以flink为核心构建。

需求调研,现有BI报表需求,统计需求,用户画像,推荐系统等数据应用。

数据库调研,了解数据库表数据结构、数据形态,全局把握业务流程数据流向,做到真正业务流程和数据结构结合。

04. 主题域划分

业务高度抽象,可先确定企业业务bu模块,然后可根据概念模型(cdm)进行一级主题划分,确定一致性维度和事实流程,构建总线矩阵。

按照kimball大师经典建模四步骤:选择业务过程->声明粒度->确定维度->确定事实 进行维度建模。

05. 数仓规范

构建企业级数据仓库,必不可少的就是制定数仓规范。包括 命名规范,流程规范,设计规范,开发规范 等。无规矩不成方圆,建设数仓也是这样。

开发规范 示例:

06. 数据治理

大数据时代必不可少的一个重要环节,可从数据质量、元数据管理、数据安全、数据生命周期等方面开展实施。数据治理是一个企业安身立命的根本。

数据质量,必须保证完整性、准确性、一致性、时效性。每一个任务都应该配置数据质量监控,严禁任务裸奔。可建设统一数据质量告警中心从以下四个方面进行监控、预警和优化任务。

元数据管理,关于数据的数据。可分为技术元数据和业务元数据。对于数仓开发和维护,模型血缘关系尤为重要。

数据安全,可包含以下五方面的内容,即数据的保密性、真实性、完整性、未授权拷贝和所寄生系统的安全性。

07. 数仓理念

从80年代到现在,数据仓库流派之争已趋于稳缓,比较经典的就是数仓大师Kimball的维度建模、数仓之父Inmon的范式(E-R)建模,另外还有Data Vault建模、Anchor模型等。


结语:数仓是一种思想,数仓是一种规范,数仓是一种解决方案。

基于aws构建云上数仓第一步:云平台的基础概念(代码片段)

...技能学习本课程同学们需要:熟练SQL的使用掌握传统数仓开发模式,理解数仓分层、星型模型、事实表、维度表等传统数仓开发的概念了解ETL的基本概念懂得Scala语言、了解Spark对云平台有一定的了解(阿里云、亚马... 查看详情

数仓第三篇:详解维度建模之事实表!

目录导读:01、事实表基础1、事实表特征2、有事实的事实表3、无事实的事实表02、事实表设计规则03、事实表设计方法04、有事实的事实表1、事务事实表2、周期快照事实表05、无事实的事实表06、聚集型事实表1、基本原则2、... 查看详情

数仓第四篇:名词解析及关系

目录一、数仓中常见概念解析1.实体2.维度3.度量4.粒度5.口径6.指标7.标签8.自然键9.持久键10.代理键11.退化维度12.缓慢变化维13.微型维度14.下钻15.上卷16.数据集市二、数仓概念之间关系1.实体表,事实表,维度表之间的关系... 查看详情

数仓第四篇:名词解析及关系

目录一、数仓中常见概念解析1.实体2.维度3.度量4.粒度5.口径6.指标7.标签8.自然键9.持久键10.代理键11.退化维度12.缓慢变化维13.微型维度14.下钻15.上卷16.数据集市二、数仓概念之间关系1.实体表,事实表,维度表之间的关系... 查看详情

数仓第二篇:数据模型(维度建模)(代码片段)

...2ERWin3.3Visio3.4ExcelMapping04.结语本文导航前言:model对于数仓是最核心的东西࿰ 查看详情

数仓第5篇:『数据魔法』etl

目录导读:一、数据同步之道01.sqoop02.DataX03.kettle04.canal05.StreamSets二、ETL之技术栈2.1工具2.2语言三、ETL加载策略01.增量02.全量03.拉链四、结束语导读:ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端... 查看详情

数仓第5篇:『数据魔法』etl

目录导读:一、数据同步之道01.sqoop02.DataX03.kettle04.canal05.StreamSets二、ETL之技术栈2.1工具2.2语言三、ETL加载策略01.增量02.全量03.拉链四、结束语导读:ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端... 查看详情

数仓第6篇:大数据可视化bi工具

目录导读:开源BI工具SupersetRedashmetabaseCBoardDavinciSpagoBIPentaho商业BI工具FineBIQlikViewTableauPowerBISmartBIQuickBI传统重BI工具导读:大数据时代商业智能(BI)和数据可视化诉求更为强烈,淘宝大屏更是风靡全球!数... 查看详情

数仓第二篇:数据模型(维度建模)(代码片段)

...2ERWin3.3Visio3.4ExcelMapping04.结语本文导航前言:model对于数仓是最核心的东西,数据模型是数据组织和存储方法,模型的好坏,决定了数仓能支撑企业业务多久。为什么大多数企业,数仓都要重建,这不仅仅... 查看详情

dataworks数仓建设基础

1数仓基本概念1.1数据仓库架构源数据, 数据仓库, 数据应用,具体架构如下:源数据:该部分数据主要是从生产数据库,线下手工数据和日志数据,集成到dataworks中,形成了数仓的第一层ods层的数据明细数据仓库:主要是按... 查看详情

第一篇:gpu编程技术的发展历程及现状

前言      本文通过介绍GPU编程技术的发展历程,让大家初步地了解GPU编程,走进GPU编程的世界。冯诺依曼计算机架构的瓶颈       曾经,几乎所有的处理器都是以冯诺依曼计算机架... 查看详情

kafka消息队列大数据实战教程-第一篇(kafka基础入门)

文章目录前言一、概念1.1消息队列的两种模式1.1.1点对点模式1.1.2发布订阅模式1.2消息队列的优点1.3核心架构图解二、基本术语2.1核心2.2分区与副本设置2.1.1案例12.1.1案例2三、常用操作命令3.1创建主题3.2列出主题3.3主题详情3.4修... 查看详情

kafka消息队列大数据实战教程-第一篇(kafka基础入门)

文章目录前言一、概念1.1消息队列的两种模式1.1.1点对点模式1.1.2发布订阅模式1.2消息队列的优点1.3核心架构图解二、基本术语2.1核心2.2分区与副本设置2.1.1案例12.1.1案例2三、常用操作命令3.1创建主题3.2列出主题3.3主题详情3.4修... 查看详情

第一篇系统架构演变

  从2021年的10月份到2022年的7月份,历时9个月录制了一套商城系统。现在把相关的课件整理分享给大家。一、系统架构演变1.服务架构的演1.1单体架构单体架构应该是我们最先接触到的架构实现了,在单体架构中使用经... 查看详情

hive数仓项目架构说明环境搭建及数据仓库基础知识(代码片段)

...库的基本介绍(回顾)--理解5)维度分析的基本内容--理解6)数仓建模的基本内容--理解7)教育数仓分层架构--理解1.教育项目的架构说明项目的架构:基于clouderamanager大数据统一管理平台,在此平台之上构建大数据相关的软件(zookeeper,HDFS,... 查看详情

hive数仓项目架构说明环境搭建及数据仓库基础知识(代码片段)

...库的基本介绍(回顾)--理解5)维度分析的基本内容--理解6)数仓建模的基本内容--理解7)教育数仓分层架构--理解1.教育项目的架构说明项目的架构:基于clouderamanager大数据统一管理平台,在此平台之上构建大数据相关的软件(zookeeper,HDFS,... 查看详情

第一篇:以太坊基础知识

思维导图:点击打开链接 查看详情

淘菜菜:基于flink和hologres的实时数仓架构升级之路

...,从传统多组件的架构升级为现在稳定的高可用实时数仓2.0,承载上千万RPS写入、几百T数据存储和秒级查询响应。在此合作过程中,淘菜菜技术团队不断沉淀出实时数仓场景下的最佳实践、开发实践、开发规范等ÿ... 查看详情