数据仓库基础内容

skyice skyice     2023-03-09     454

关键词:

一.数据仓库概念

将多数据源中的数据整合一起,进行数据分析,此时数据仓库对多种业务数据进行筛选和整合,可以用于数据分析、数据挖掘、数据报表。时效性T+1.

二.数据仓库的特点

  • 主题性:数据仓库是针对某个主题来进行组织,比如滴滴出行,司机行为分析就是一个主题,所以可以将多种不同的数据源进行整合。而传统的数据库主要针对某个项目而言,数据相对分散和孤立。
  • 集成性:数据仓库需要将多个数据源的数据存到一起,但是这些数据以前的存储方式不同,所以需要经过抽取、清洗、转换的过程
  • 稳定性:保存的数据是一系列历史快照,不允许修改,只能分析。
  • 时变性:会定期接收到新的数据,反应出最新的数据变化。

    三. 数据中心整体架构

    技术图片

四.名称解析

DB:各种数据源,如mysql,mongodb等数据库
ETL: 抽取(extract)、交互转换(transform)、加载(load)的过程。操作工具可以简单的编写程序操作,或者是用kettle工具。
ODS:操作型数据仓库。
ods:操作性数据仓库ods的应用场景

  1. 在业务系统和数据仓库之间形成一个隔离,ods直接存放从业务系统抽取过来的数据,这些数据从结构和数据上与业务系统保持一致,降低了数据抽取的复杂性。
  2. 转移一部分业务系统的细节查询功能,因为ods存放的数据与业务系统相同,原来有业务系统产生的报表,现在可以从ods中产生了。
  3. 完成数据仓库中不能完成的功能。ods存放的是明细数据,数据仓库dw或dm都存放的是汇聚数据,ods提供查询明细功能。

个人理解:

  1. ods提供了数据冗余备份,它的存在可以避免数据仓库直接调用业务系统的数据。
  2. 数据抽取到ods中只需要将业务系统的数据原封不动的拷贝过去,可以忽略业务上的规则。
  3. ods数据只能增加不能修改,而且数据都是从业务系统的原样拷贝,所以可能存在数据冲突的可能,解决办法是为每一条数据增加一个时间版本来区分相同的数据。

DW: 数据仓库,是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策

  1. 效率足够高,要对进入的数据快速处理。
  2. 数据质量,数据仓库是提供很多决策系统的支撑数据,所以数据准确非常重要。
  3. 扩展性,企业业务扩展和降低企业建设数据仓库的成本考虑。
  4. 面向主题,数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。

dw理解:

  1. dw主要提供查询服务,并且需要查询能够及时响应。
  2. 进入dw的数据应该是能唯一的具有权威性的数据,企业的系统只能使用从dw提供的被认可的数据,所以预先做好企业的元数据建立非常必要。
  3. 定期需要对dw里面的数据进行质量检查,保证dw里面的数据唯一、权威、准确。
  4. dw的数据也是只允许增加不允许删除和修改,数据仓库主要是提供查询服务,删除和修改在分布式系统中会消耗大量的性能资源。

DM:数据即视层,以某个业务应用为出发点而建设的局部dw,dw只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用。每个应用有自己的dm
dm理解:

  1. dm结构清晰、针对性强、扩展性好,因为dm仅仅是单对某一个领域而建立,容易维护和修改。
  2. dm建设任务繁重,公司有众多业务每一个业务单独加建立工作量集合增加啊。
  3. dm的建立消耗更多存储空间,单独一个dm可能数据量不大,但是企业所有领域都建立dm数据量就会增加很多倍。

五. 大数据下的数据仓库模型

数据模型

技术图片

底层模型:

技术图片

数据仓库入门介绍

...次我都说是数仓开发,但是很多同学不太了解什么是数据仓库,于是我就写一篇博客,来介绍一下数据仓库,对往期内容感兴趣的小伙伴可以看下面的文章👇:链接:柳小葱的hadoop之路链接:柳小葱的spark之... 查看详情

2017.06.29数据挖掘基础概念第四章

...为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行1、提高两个系统的性能2、操作数据库支持多事务的并发处理,需要并发控制和恢复机制,确保一致性和事务的鲁棒性3、... 查看详情

数据仓库基础

四、知识点1.数据仓库基本介绍英文名称为==DataWarehouse==,可简写为DW或DWH。数据仓库的目的是==构建面向分析的集成化数据环境==,为企业提供==决策支持==(DecisionSupport)。它出于分析性报告和决策支持目的而创建。数据仓库本... 查看详情

数据仓库,数据基础操作

1///<summary>2///此类作用:数据仓库,数据基础操作3///</summary>4///<typeparamname="TEntity">实体</typeparam>5///<remarks>6///zhangqc2016.08.08新建7///</remarks>8publicpartialclassRepos 查看详情

hive数仓项目架构说明环境搭建及数据仓库基础知识(代码片段)

...介绍(了解)3)教育项目环境搭建(参考搭建笔记,搭建成功)4)数据仓库的基本介绍(回顾)--理解5)维度分析的基本内容--理解6)数仓建模的基本内容--理解7)教育数仓分层架构--理解1.教育项目的架构说明项目的架构:基于clouderamanager大数... 查看详情

hive数仓项目架构说明环境搭建及数据仓库基础知识(代码片段)

...介绍(了解)3)教育项目环境搭建(参考搭建笔记,搭建成功)4)数据仓库的基本介绍(回顾)--理解5)维度分析的基本内容--理解6)数仓建模的基本内容--理解7)教育数仓分层架构--理解1.教育项目的架构说明项目的架构:基于clouderamanager大数... 查看详情

)1.1数据库基础知识概念即名词说明

第一章、数据库基础知识概念即名词说明快到考试周啦,得好好复习一下这个学期所学的一些知识内容啦。这第一大课就从数据库开始吧!数据库。顾名思义就是一个装着数据的仓库,数据库可以类比成现实生活中的... 查看详情

greenplum实时数据仓库实践——数据仓库设计基础

目录2.1   关系数据模型2.1.1关系数据模型中的结构2.1.2关系完整性2.1.3关系数据库语言2.1.4规范化2.1.5关系数据模型与数据仓库2.2   维度数据模型2.2.1维度数据模型建模过程2.2.2维度规范化2.2.3维度数据模型的特点2.2.4星型模式2.2... 查看详情

greenplum实时数据仓库实践——数据仓库设计基础

目录2.1   关系数据模型2.1.1关系数据模型中的结构2.1.2关系完整性2.1.3关系数据库语言2.1.4规范化2.1.5关系数据模型与数据仓库2.2   维度数据模型2.2.1维度数据模型建模过程2.2.2维度规范化2.2.3维度数据模型的特点2.2.4星型模式2.2... 查看详情

数据仓库基础知识

数据仓库四个主要特征:1.  主题性数据仓库是一般从用户实际需求出发,将不同平台的数据源按设定主题进行划分整合,与传统的面向事务的操作型数据库不同,具有较高的抽象性。面向主题的数据组织方式,就是在... 查看详情

数据库技术基础---4

数据仓库和数据挖掘基础知识一、数据仓库相比数据库,数据仓库增加了决策分析功能OLAP:联机分析处理,用于数据挖掘,从数据仓库中分析数据,要求相应时间合理OLTP:联机事务处理,用于更新事务,将数据写入数据库,面... 查看详情

docker学习笔记docker基础操作实,docker仓库数据卷,网络基础学习

Docker学习笔记【3】Docker仓库实操,创建私有仓库,实操数据卷、数据卷容器,实操网络基础 ---------高级网络配置和部分实战案例学习=============================================================Docker学习笔记【1】Docker相关概念,基本操作... 查看详情

一数据仓库基础理论

数据仓库基础理论一、数据仓库1、概念2、数据仓库分层结构3、为什么要分层二、数据集市三、数据湖1、数据湖和数据仓库一、数据仓库1、概念数据仓库(DataWarehouse,DW):一个面向主题的、集成的、非易失的、反应... 查看详情

一数据仓库基础理论

数据仓库基础理论一、数据仓库1、概念2、数据仓库分层结构3、为什么要分层二、数据集市三、数据湖1、数据湖和数据仓库一、数据仓库1、概念数据仓库(DataWarehouse,DW):一个面向主题的、集成的、非易失的、反应... 查看详情

干货:数据仓库架构及基础知识

...;,获取后台回复“k8s”,可领取k8s资料1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面... 查看详情

git基础使用(代码片段)

...的区域暂存区:用于记录工作区的工作(修改)内容本地仓库:用于备份工作区的内容远程仓库:远程主机上的GIT仓库注意:只有仓库区的内容才能和其他远程仓库交互。项目操作过程#项目文件夹内初始化仓库gitinit#关联本地和远程... 查看详情

大数据分析基础——维度模型

参考技术A维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两个基本要素构成。维度是度量的环境,用来反映业务的一类属性,这类属性的集合构成一个维度,也... 查看详情

)1.1数据库基础知识概念即名词说明

第一章、数据库基础知识概念即名词说明快到考试周啦,得好好复习一下这个学期所学的一些知识内容啦。这第一大课就从数据库开始吧!数据库。顾名思义就是一个装着数据的仓库,数据库可以类比成现实生活中的... 查看详情