数据仓库与数据湖的区别(代码片段)

Jellylee Jellylee     2023-03-04     742

关键词:

数据湖通常包含用于高级分析应用程序的各种大数据集,而数据仓库则存储用于基本 BI、分析和报告用途的传统事务数据。下面,让我们更仔细地看一下这两个数据存储以及它们之间的差异。

1.什么是数据湖?

数据湖通常是一个庞大的存储库,以本机格式存储原始数据。数据湖的一个好处是它
可以存储不同结构的数据,而不仅仅是传统的结构化数据。每个存储的数据元素都有
一个唯一的标识符和元数据标记,因此在需要时可以更容易地查询。但是,当数据被
提取时,数据湖不需要预定义的模式。相反,数据科学家和其他分析师可以将架构应
用于数据集,并在提取过程完成后根据特定的分析需求对其进行筛选。

当数据湖首次出现时,它们通常与Hadoop分布式处理框架相关联,但随着企业中数
据的不断涌入,架构选项已经增加到包括其他大数据平台。许多T供应商现在还支持
云中的数据湖,通常将Spak处理引擎和云对象存储服务结合起来。

2.什么是数据仓库

数据仓库是由业务应用程序生成或收集的数据的存储库,然后存储用于预定的分析目
的。大多数数据仓库都建立在关系数据库上,因此,它们确实对数据应用了预定义的
架构。此外,在加载数据之前,通常必须按照预期用途对数据进行清理、整合和组
织。

由于数据仓库中的数据已经被处理,因此进行高级分析相对容易。业务经理和其他不
熟练的数据或分析专业人员可以使用自助BI工具(比如FineBl)自行访问和分析数
据。企业数据仓库为整个组织提供集中的数据存储库,同时可以为各个部门设置较小
的数据集市。与数据湖一样,云数据仓库越来越多地被部署为本地数据仓库的替代方
案。

3.数据湖与数据仓库:8个重要区别

当组织拥有来自操作系统的大量数据、需要随时进行分析以支持日常业务流程时,他们通常会选择数据仓库而不是数据湖。数据仓库通常作为企业中的可信单一数据源,因为它们存储已清理和分类的历史业务数据。

相比之下,数据湖通常存储来自更广泛来源的数据。数据湖平台本质上是来自组织的操作系统和其他来源(通常包括内部和外部来源)的各种原始数据资产的集合。下表详细介绍了数据湖和数据仓库之间的八个具体差异:

对比项数据湖数据仓库
支持的数据类型数据湖可以处理结构化、半结构化和非结构化数据的组合,这些数据通常以其本机格式存储,以使全套原始数据可用于分析。数据仓库通常存储来自业务处理系统和其他业务应用程序的结构化数据。在大多数情况下,数据在进入数据仓库之前会经过清理和整理。
分析用途数据湖主要用于涉及机器学习、预测建模和其他高级分析技术的数据科学应用程序。分析目标并不总是预定义的。数据仓库支持不太复杂的 BI、临时分析、报告和数据可视化应用程序,通常具有用于分析商业运营和跟踪 KPI 的预定义目的。
用户数据科学家和较低级别的数据分析师是数据湖的主要用户。他们通常得到数据工程师的支持,他们构建数据管道并帮助根据需要准备数据进行分析。业务分析师、高管和运营人员通过自助 BI 工具使用数据仓库。或者,BI 分析师和开发人员在数据仓库中为业务用户进行查询。
数据处理方法数据湖支持传统的提取、转换和加载(ETL) 流程,但它们更有可能使用提取、加载和转换(ELT),其中数据按原样加载并针对特定用途进行转换。ETL过程在数据仓库中的数据集成和准备很常见。在加载数据集以支持BI和分析应用程序之前,数据结构已最终确定。
架构方法数据集的架构可以在数据存储在数据湖中后使用读取时架构方法进行定义。数据仓库中的架构是在加载数据集之前按照写入时架构定义的。
数据存储数据通常存储在关系数据库以外的平台中,例如Hadoop分布式文件系统,云对象存储服务或非关系型数据库。最常见的是,数据使用传统的磁盘存储存储在关系数据库中。数据仓库也可以建立在列式储存数据库上,类似磁盘存储。
成本硬件成本可以降低,因为数据湖使用成本较低的服务器和存储。数据管理的成本也可能更低。但一些数据湖的庞大规模可以抹除成本优势。通常,数据仓库所需的大型服务器和磁盘存储系统使其部署成本高于数据湖。管理数据仓库的成本也可能更高。
商业利益数据湖使数据科学团队能够分析各种结构化和非结构化数据集,并创建分析模型,为战略规划和业务决策提供见解。数据仓库提供了一个集中的统一和精选数据集存储库,可以轻松访问并用于分析业务绩效和支持运营决策。

4.哪个平台更适合企业

决定用数据湖还是数据仓库主要取决于企业计划如何使用数据。

由于数据仓库包含已处理并准备用于分析的历史数据,因此非常适合技术知识较少的
员工。不仅业务分析师、高管和用户可以使用自助式B引和分析工具分析数据,而且
数据仓库的设计通常使不同的团队和部门可以轻松访问存储在其中的数据。这就是为
什么构建良好的数据仓库架构是打破企业系统数据孤岛的关键。

对于从大容量源源源不断地提取大量数据的企业来说,数据湖很受欢迎。数据湖可以
存储原始数据,数据提取相对简单。但是,与数据仓库中的已处理数据相比,此类数
据更难导航和使用。因此,数据科学家通常将数据湖用于高级分析应用程序。它们为
从相同的数据集构建不同的分析模型提供了灵活性,也使数据湖成为具有不同分析需
求的企业的热门选择。

最终,许多企业部署了这两种类型的平台来支持不同类型的数据分析。在某些情况
下,在统一环境中组合使用数据湖和数据仓库可能是最佳选择。例如,数据仓库中的
数据可能会被输入到数据湖中,以便数据科学家进行更深入的分析。更进一步,出现
了新的数据湖仓平台,它们将数据湖的灵活存储和可扩展性与数据仓库的数据管理和
用户友好查询功能相结合。

数据仓库与ods(代码片段)

1.引言本篇主要讲述操作数据存储(ODS)系统产生的背景、定义、特点,以及它与数据仓库的区别。在前两篇,笔者介绍了什么是数据仓库?为什么需要数据仓库?数据仓库系统的体系结构是什么?因此可能在读者心里已经形成... 查看详情

奈学:数据湖和数据仓库的区别有哪些?

储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。 数据组... 查看详情

数据仓库hive从入门到小牛(代码片段)

目录一、数据仓库的介绍1.1数据仓库的基本概念1.2数据仓库的主要特征1.3数据仓库与数据库区别1.4数据仓库分层架构1.5数据仓库之ETL二、Hive简介2.1什么是Hive?2.2为什么使用Hive?2.3Hive的体系结构2.4Hive与关系型数据库区别三、Hive的... 查看详情

数据湖是什么?数据湖和数据仓库什么关系,数据湖的架构分析

什么是数据湖?数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。它是一个以本机格式存储每种类型数据的地方,不受帐户大小或文件的固定限制。它提供了高数据量来提高分析性能和本地集成。数据湖就... 查看详情

物联网云的存储与应用架构——architectingiotcloud(代码片段)

物联网云的存储与应用架构存储框架数据类型数据的存储系统-数据库SQL-传统的关系型数据库NoSQL-新型数据库MongoDBCassandraRedisinfluxDBElasticsearchCAP理论数据仓库DataWarehouse数据湖DataLakeETL/ELT数据湖面临的挑战数据湖的文件系统数据湖... 查看详情

最新大厂数据湖面试题,知识点总结

本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解目录:一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别... 查看详情

hive简单使用(代码片段)

1、数据仓库与数据库区别数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别。操作型处理,叫联机事务处理OLTP(On-LineTransactionProcessing),也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日... 查看详情

hive简单使用(代码片段)

1、数据仓库与数据库区别数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别。操作型处理,叫联机事务处理OLTP(On-LineTransactionProcessing),也可以称面向交易的处理系统,它是针对具体业务在数据库联机的日... 查看详情

最新大厂数据湖面试题,知识点总结

本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解目录:一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别... 查看详情

数据仓库的架构与设计(代码片段)

公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有:什么是数据仓库?数据仓库的架构数据仓库多维数... 查看详情

数据仓库之理论概述

目录(1)什么是数据仓库(2)数据仓库的特点(3)数据仓库发展历程(4)使用数据仓库有哪些优势?(5)数据库、数据仓库、数据湖的区别(6)数仓分层(6.1)为什么... 查看详情

数据仓库之理论概述

目录(1)什么是数据仓库(2)数据仓库的特点(3)数据仓库发展历程(4)使用数据仓库有哪些优势?(5)数据库、数据仓库、数据湖的区别(6)数仓分层(6.1)为什么... 查看详情

数据仓库的架构与设计(代码片段)

公司之前的数据都是直接传到Hdfs上进行操作,没有一个数据仓库,趁着最近空出几台服务器,搭了个简陋的数据仓库,这里记录一下数据仓库的一些知识。涉及的主要内容有:什么是数据仓库?数据仓库... 查看详情

数据仓库与数据库的区别

 数据库数据仓库面向面向事务面向主题设计存储数据存储在线交易数据存储历史数据规则设计尽量避免冗余,一般采用符合范式的规则来设计有意引入冗余,采用反范式的方式来设计数据设计捕获数据分析数据 查看详情

数据仓库与数据挖掘的关系,区别与联系

参考技术A数据仓库与数据挖掘的联系(1)数据仓库为数据挖掘提供了更好的、更广泛的数据源。(2)数据仓库为数据挖掘提供了新的支持平台。(3)数据仓库为更好地使用数据挖掘这个工具提供了方便。(4)数据挖掘为数据仓库提供了... 查看详情

数据库与数据仓库区别

数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。(1)面向主题:指数据仓库中的数据是按照一定的主题域... 查看详情

数据仓库与数据集市的概念区别

企业从事数据仓库项目时,往往会遇到多个数据仓库软件供应商。各供应商除了推销相关的软件工具外,同时会向企业灌输许多概念,其中,数据仓库和数据集市是最常见的。由于术语定义不统一,另外各个供应商销售策略不一... 查看详情

还在纠结数据仓库和数据湖的二选一?滴普科技fastdata教你两手兼得

近年来,信息技术迅猛发展,伴随着云计算、大数据、人工智能等技术的快速发展和传统产业的数字化转型,数据量呈现几何级增长。根据市场研究资料显示,全球数据总量将从2016年的16.1ZB增长到2025年的175ZB࿰... 查看详情