一数据仓库基础理论

长不大的大灰狼 长不大的大灰狼     2023-03-28     671

关键词:

数据仓库基础理论

一、数据仓库

1、概念

数据仓库(Data Warehouse, DW):一个面向主题的、集成的、非易失的、反应历史变化的、用来支持企业管理决策的数据集合。

2、数据仓库分层结构

缓冲层、贴源层、基础明细层、数据服务层、集市层

贴源层ODS: 业务系统数据的集合;
基础明细层DWD层:基于ODS层,进行统一范式建模,规整基础数据;


数据中间层(DWM层):对一些基础指标进行汇总;
数据服务层(DWS层):以企业视角,建立多个主题域模型;
数据集市层(DM层):为特定主题提供定制化服务;

3、为什么要分层

  • 复杂问题简单化:每层的职责明确;
  • 减少重复开发:规范数据分层,减少重复计算量,增加计算结果的复用性;
  • 隔离原始数据:使真实数据与最终统计数据解耦;
  • 空间换时间:通过大量的预处理来提升系统的用户体验、分析效率;

二、数据集市

数据集市:是一个针对某个主题、某个部门或者某些特殊用户而进行分类的数据集合,也称为“小数据仓库”或“部门级数据仓库”

  • 满足特定部门或用户需求;
  • 能够聚焦特定主题;
  • 统一的高质量数据;
  • 数据仓库的子集;

独立型数据集市(自下而上开发):先做独立的数据集市,当达到一定规模后,再从各个数据集市进行数据的整合建立企业级的数据仓库。

  • 不能以全局视角分析数据,可能产生大量冗余数据
  • 搭建快,成本低

从属型数据集市(自上而下开发): 先建立企业级数据仓库,然后从数据仓库中为各个部门抽取必要的数据建立部门级的数据集市。

  • 可提高数据分析的质量
  • 体系结构更稳定
  • 实施周期长、难度大、风险高

三、数据湖

1、数据湖和数据仓库

数据湖的核心是:提供一个统一的数据存储模式。

数据湖主要提供一个统一的数据存储模式,分析类应用(数据中台、数据仓库)可以在其基础上搭建。

狭义的数据湖只是一种底层的数据存储模型,而广义的数据湖包括了数据集成,数据治理,数据处理与分析,数据挖掘,安全管控,质量检验等。

一脸懵逼学习hive(数据仓库基础构架)

Hive是什么?其体系结构简介*Hive的安装与管理*HiveQL数据类型,表以及表的操作*HiveQL查询数据***Hive的Java客户端**Hive的自定义函数UDF*1:什么是Hive(一):  (1)Hive是建立在Hadoop 上的数据仓库基础构架。它提供了一系列的... 查看详情

数据库技术基础---4

数据仓库和数据挖掘基础知识一、数据仓库相比数据库,数据仓库增加了决策分析功能OLAP:联机分析处理,用于数据挖掘,从数据仓库中分析数据,要求相应时间合理OLTP:联机事务处理,用于更新事务,将数据写入数据库,面... 查看详情

数据仓库基础内容

一.数据仓库概念将多数据源中的数据整合一起,进行数据分析,此时数据仓库对多种业务数据进行筛选和整合,可以用于数据分析、数据挖掘、数据报表。时效性T+1.二.数据仓库的特点主题性:数据仓库是针对某个主题来进行组... 查看详情

数据仓库数据仓库分层理论(代码片段)

1、数据仓库简介其实数仓数据分层,就跟代码分层一样.如果所有数据都放在一层,就跟代码都放在一个文件,肯定是可以运行的,但带来的问题就是阅读性差,复用性和维护性降低。数仓的分层也是一样࿰... 查看详情

大数据必学java基础(一百一十九):maven仓库与jdk的配置

文章目录Maven仓库与JDK的配置一、Maven仓库二、JDK的配置Maven仓库与JDK的配置一、Maven仓库Maven仓库是基于简单文件系统存储的,集中化管理JavaAPI资源(构件)的一个服务。仓库中的任何一个构件都有其唯一的坐标,根据这个坐标... 查看详情

大数据必学java基础(一百一十九):maven仓库与jdk的配置

 文章目录Maven仓库与JDK的配置一、Maven仓库二、JDK的配置Maven仓库与JDK的配置一、Maven仓库Maven仓库是基于简单文件系统存储的,集中化管理JavaAPI资源(构件)的一个服务。仓库中的任何一个构件都有其唯一的坐标,根据这个... 查看详情

数据仓库基础知识

...维度表1.1什么是事实表呢?1.2什么是维度表呢?2数据库三范式2.1首先看第一范式(1NF):2.2第二范式(2NF)2.3第三范式(3NF)3维度建模模型3.1星型模型和雪花模型3.1.1星型模型3.1.2雪花模型4数据仓库分层设计1事实表、维度表首先... 查看详情

数据仓库——数据仓库命名规范

一、概述  数据模型是数据管理的分析工具和交流的有力手段;同时,还能够很好地保证数据的一致性,是实现商务智能(BusinessIntelligence)的重要基础。因此建立、管理一个企业级的数据模型,应该遵循标准的命名和设计规... 查看详情

维度模型数据仓库基础对象概念一览

一、度量、指标、指标器度量和维度构成OLAP的主要概念,对于在事实表或者一个多维立方体里面存放的数值型的、连续的字段,就是度量。这符合上面的意思,有标准。一个度量字段肯定是统一单位,比如元、户数。假设一... 查看详情

数据仓库之扫盲篇

...系,数仓人员接触的产品。二、主要内容2.1、什么是数据仓库数据仓库是一种理论知识,通过数仓理论知识结合不同的业务体系而构建的数据生命体系,数据生命体系构建于整个数据平台体系之上业务体系之下。2.2、... 查看详情

大数据必学java基础(七十九):线程通信问题(代码片段)

文章目录线程通信问题一、分解1二、分解2三、分解3四、Loc锁情况下的线程通信线程通信问题应用场景:生产者和消费者问题假设仓库中只能存放一件产品,生产者将生产出来的产品放入仓库,消费者将仓库中产品取... 查看详情

数据仓库的基本理论

1.数仓建模的目标访问性能:能够快速查询所需的数据,减少数据I/O数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本使用效率:改善用户应用体验,提高使用数据的效率数据... 查看详情

数据仓库基础

四、知识点1.数据仓库基本介绍英文名称为==DataWarehouse==,可简写为DW或DWH。数据仓库的目的是==构建面向分析的集成化数据环境==,为企业提供==决策支持==(DecisionSupport)。它出于分析性报告和决策支持目的而创建。数据仓库本... 查看详情

数据仓库之理论概述

目录(1)什么是数据仓库(2)数据仓库的特点(3)数据仓库发展历程(4)使用数据仓库有哪些优势?(5)数据库、数据仓库、数据湖的区别(6)数仓分层(6.1)为什么... 查看详情

数据仓库之理论概述

目录(1)什么是数据仓库(2)数据仓库的特点(3)数据仓库发展历程(4)使用数据仓库有哪些优势?(5)数据库、数据仓库、数据湖的区别(6)数仓分层(6.1)为什么... 查看详情

数据仓库,数据基础操作

1///<summary>2///此类作用:数据仓库,数据基础操作3///</summary>4///<typeparamname="TEntity">实体</typeparam>5///<remarks>6///zhangqc2016.08.08新建7///</remarks>8publicpartialclassRepos 查看详情

greenplum实时数据仓库实践——数据仓库设计基础

目录2.1   关系数据模型2.1.1关系数据模型中的结构2.1.2关系完整性2.1.3关系数据库语言2.1.4规范化2.1.5关系数据模型与数据仓库2.2   维度数据模型2.2.1维度数据模型建模过程2.2.2维度规范化2.2.3维度数据模型的特点2.2.4星型模式2.2... 查看详情

greenplum实时数据仓库实践——数据仓库设计基础

目录2.1   关系数据模型2.1.1关系数据模型中的结构2.1.2关系完整性2.1.3关系数据库语言2.1.4规范化2.1.5关系数据模型与数据仓库2.2   维度数据模型2.2.1维度数据模型建模过程2.2.2维度规范化2.2.3维度数据模型的特点2.2.4星型模式2.2... 查看详情