关键词:
什么是数据湖?
数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。它是一个以本机格式存储每种类型数据的地方,不受帐户大小或文件的固定限制。它提供了高数据量来提高分析性能和本地集成。
数据湖就像一个大容器,非常类似于真实的湖泊和河流。就像在一个湖中有多个支流,一个数据湖有结构化数据,非结构化数据,机器对机器,实时流动的日志。
数据湖使数据民主化,是存储组织所有数据以供以后处理的一种经济有效的方法。研究分析师可以专注于寻找数据中的意义模式,而不是数据本身。
不像分层的数据仓库,数据存储在文件和文件夹中,数据湖有一个扁平的架构。数据湖中的每个数据元素都有一个惟一的标识符,并用一组元数据信息进行标记。
目录
- 什么是数据湖?
- 为什么使用数据湖?
- 数据湖架构
- 数据湖的关键概念
- 数据湖的成熟度
- 数据湖实施的最佳方法
- 数据湖和数据仓库之间的区别
- 使用数据湖的好处和风险
为什么使用数据湖?
构建数据湖的主要目的是为数据科学家提供一种未经提炼的数据视图。
使用数据湖的原因是:
- 随着Hadoop等存储引擎的出现,存储不同的信息变得很容易。不需要使用数据湖将数据建模为企业范围的模式。
- 随着数据量、数据质量和元数据的增加,分析的质量也会提高。
- 数据湖提供业务灵活性
- 机器学习和人工智能可以用来做出有利可图的预测。
- 它为实施组织提供了竞争优势。
- 没有数据筒仓结构。数据湖提供360度的客户视角,使分析更加稳健。
数据湖架构
图中显示了业务数据湖的体系结构。较低的级别表示大部分处于静止状态的数据,而较高的级别表示实时事务数据。这些数据在系统中流动,没有或只有很少的延迟。以下是数据湖架构中的重要层次:
- 采集层:左侧的数据源。数据可以批量或实时加载到数据湖中
- 视图层:右边的视图层表示使用来自系统的视图数据来进行分析。SQL、NoSQL查询,甚至excel都可以用于数据分析。
- HDFS对于结构化和非结构化数据都是一种经济有效的解决方案。它是系统中所有静止数据的着陆区。
- 转换层从存储层中提取数据,并将其转换为结构化数据,以便于分析。
- 处理层运行分析算法和用户查询,具有不同的实时性、交互性、批处理能力,生成结构化数据,便于分析。
- 统一操作层管理系统管理和监控。它包括审计和熟练管理,数据管理,工作流管理。
数据湖的关键概念
下面是需要理解的数据湖关键概念,以便完全理解数据湖体系结构。
数据采集
数据采集允许采集程序(前置机)从不同的数据源获取数据并加载到数据湖中。
数据采集支持:
- 所有类型的结构化、半结构化和非结构化数据。
- 多个采集,如批量,实时,一次性加载。
- 许多类型的数据源,如数据库、web服务器、电子邮件、物联网和FTP。
数据存储
数据存储应该是可伸缩的,提供经济有效的存储,并允许快速访问数据探索。它应该支持各种数据格式。
数据治理
数据治理是管理组织中使用的数据的可用性、可用性、安全性和完整性的过程。
数据安全
需要在数据湖的每一层实现安全性。它从存储、挖掘和消费开始。最基本的需要是停止未经授权用户的访问。它应该支持不同的工具来访问数据,并且易于导航GUI和仪表板。
认证、会计、授权和数据保护是数据湖安全的重要特征。
数据质量
数据质量是数据湖体系结构的重要组成部分。数据用于确定业务价值。从质量差的数据中提取见解将导致质量差的见解。
数据发现
在开始准备数据或分析之前,数据发现是另一个重要的阶段。在这个阶段,通过组织和解释数据湖中摄入的数据,使用标记技术来表达对数据的理解。
数据审计
两个主要的数据审计任务是跟踪对关键数据集的更改。
- 跟踪对重要数据集元素的更改
- 捕获如何/何时/以及谁更改这些元素。
数据审计有助于评估风险和遵从性。
数据溯源
这个组件处理数据的起源。它主要处理随着时间的推移它在哪里移动以及发生了什么。它简化了从起点到终点的数据分析过程中的错误纠正。
数据探索
这是数据分析的开始阶段。在开始数据探索之前,识别正确的数据集是非常重要的。
所有给定的组件都需要协同工作,才能在数据湖构建中发挥重要作用,从而轻松地演化和探索环境。
数据湖的成熟度
数据湖成熟度阶段的定义不同于教科书。尽管症结依然存在。在成熟度之后,阶段定义是从外行人的角度进行的。
第一阶段:按比例处理和摄取数据
数据成熟度的第一个阶段包括改进转换和分析数据的能力。在这里,业务所有者需要根据他们的技能集找到工具,以获取更多数据并构建分析应用程序。
第二阶段:培养分析能力
这是第二个阶段,包括改进数据转换和分析的能力。在这个阶段,公司使用最适合他们技能的工具。他们开始获取更多的数据并构建应用程序。这里将同时使用企业数据仓库和数据湖的功能。
第三阶段:EDW和Data Lake协同工作
这一步包括让尽可能多的人掌握数据和分析。在这个阶段,数据湖和企业数据仓库开始在一个联合中工作。两者都在分析中扮演着各自的角色
第四阶段:湖中企业能力
在数据湖的这个成熟阶段,企业功能被添加到数据湖中。采用信息治理、信息生命周期管理功能和元数据管理。然而,很少有组织能够达到这个成熟度级别,但是这个数字在未来将会增加。
数据湖实施的最佳方法:
- 体系结构组件、它们的交互和已标识的产品应该支持本地数据类型
- 数据湖的设计应该由可用的而不是需要的驱动。在查询之前,不会定义模式和数据需求
- 设计应以与服务API集成的一次性组件为指导。
- 数据发现、采集、存储、管理、质量、转换和可视化应该独立管理。
- 数据湖架构应该针对特定的行业进行定制。它应该确保该领域所需的功能是设计的固有部分
- 更快地加载新发现的数据源是很重要的
- 数据湖帮助自定义管理提取最大价值
- 数据湖应该支持现有的企业数据管理技术和方法
构建数据湖的挑战:
- 在数据湖中,数据量较高,因此流程必须更加依赖于程序化管理
- 处理稀疏、不完整、易变的数据是困难的
- 更大范围的数据集和数据源需要更大的数据治理和支持
数据湖和数据仓库的区别
参数 | 数据湖 | 数据仓库 |
数据 | 数据湖存储一切。 | 数据仓库只关注业务流程。 |
处理 | 数据主要未经处理 | 高度加工数据。 |
数据类型 | 它可以是非结构化、半结构化和结构化的。 | 它主要是表格形式和结构。 |
任务 | 共享数据管理 | 数据检索优化 |
敏捷性 | 高度敏捷,根据需要进行配置和重新配置。 | 与数据湖相比,它的灵活性较差,配置固定。 |
用户 | 数据湖主要由数据科学家使用 | 业务专业人员广泛使用数据仓库 |
存储 | 数据湖是为低成本存储而设计的。 | 使用价格昂贵、响应速度快的存储 |
安全 | 控制度相对较小 | 控制数据安全性要求更高。 |
是否可以替代EDW | 数据湖可以作为EDW的数据源 | EDW的补充(不是替代) |
模式 | 读取模式(没有预定义的模式) | 写模式(预定义模式) |
数据处理 | 有助于快速消化新数据。 | 引入新内容非常耗时。 |
数据粒度 | 低细节或粒度级别的数据。 | 汇总的详细级别的数据。 |
工具 | 可以使用像Hadoop/ Map Reduce这样的开源/工具吗 | 主要商业工具。 |
使用数据湖的好处和风险:
下面是使用数据湖的一些主要好处:
- 帮助充分分析产品和业务
- 提供具有成本效益的可伸缩性和灵活性
- 提供来自无限数据类型的值
- 降低长期拥有成本
- 允许文件的经济存储
- 快速适应变化
- 数据湖的主要优势是不同内容来源的集中
- 来自不同部门的用户,可以分散在全球各地,灵活地访问数据
使用数据湖的风险:
- 一段时间后,数据湖可能会失去相关性和动力
- 设计数据湖涉及的风险较大
- 非结构化数据可能导致不受治理的无用数据堆积、不可用的数据、不同的和复杂的工具、企业范围的协作、统一的、一致的和公共的
- 它还增加了存储和计算成本
- 没有办法从其他研究过这些数据的人那里获得数据解释,因为之前的分析人员没有对这些数据的整体流程、处理方式、采集源头等等进行说明
- 数据湖最大的风险是安全和访问控制。有时候,数据可以在没有任何监管的情况下被放入湖中,因为一些数据可能有隐私和监管需要
总结:
- 数据湖是一个存储库,可以存储大量结构化、半结构化和非结构化数据。
- 构建数据湖的主要目的是为数据科学家提供一种未经提炼的数据视图。
- 统一操作层、处理层、转换层和HDFS是数据湖体系结构的重要组成部分
- 数据采集、数据存储、数据质量、数据审计、数据溯源、数据发现是数据湖体系结构的重要组成部分
- 数据湖的设计应该由可用的而不是需要的驱动。
- 数据湖降低了长期拥有成本,并允许文件的经济存储
- 数据湖最大的风险是安全和访问控制。有时候,数据可以在没有任何监管的情况下被放入湖中,因为一些数据可能有隐私和监管需要。
数据湖和数据仓库的区别是啥?
我们都知道,进行数据分析工作的时候会用到很多的工具,比如说数据湖和数据仓库,不过这两者之间的差异和区别,可能会让人困惑。那么大家数据湖和数据仓库的区别:一个数据湖专门用于存储任何形式的数据,即结构化或... 查看详情
奈学:数据湖和数据仓库的区别有哪些?
储存方面:数据湖中数据为非结构化的,所有数据都保持原始形式;存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取,在将数据加载到数据仓库之前,会对数据进行清理与转换。 数据组... 查看详情
数据湖搭建指南——几个核心问题
目录1、什么是数据湖?2、为什么要使用数据湖?数据湖与数据仓库3、如何构建数据湖?4、数据湖技术路线5、应用6、数据湖的挑战7、如何避免数据沼泽1、什么是数据湖?数据湖是一种技术系统,可以大批量... 查看详情
数据湖:只是一个新名字?从哪里来,往那里去
目录基本认识大数据背景?为什么它很大?什么是数据仓库?什么是数据湖?数据湖与数据仓库——主要区别数据湖和数据仓库的对比数据湖vs数据仓库数据湖中的价值来自非策划数据的见解新形式的分析企... 查看详情
数据湖和数据仓库的区别是啥?
数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据仓库是位于多个数据库上的大容量存储库。它的作用是存储大量的结构化数据,并能... 查看详情
数据湖和数据中台的区别?
一、数据湖的定义维基百科上定义,数据湖(DataLake)是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无需事先对数据进行结构化处理。一个数据湖可以存储结构化数据(如关系型数据库中的表),半结构化... 查看详情
数据仓库与数据湖的区别(代码片段)
数据湖通常包含用于高级分析应用程序的各种大数据集,而数据仓库则存储用于基本BI、分析和报告用途的传统事务数据。下面,让我们更仔细地看一下这两个数据存储以及它们之间的差异。1.什么是数据湖?数据湖... 查看详情
最新大厂数据湖面试题,知识点总结
本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解目录:一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别... 查看详情
数据湖了解
论数据湖技术及其应用摘要:近年来,随着互联网、物联网、工业物联网等技术的不断发展,企业级数据类型异常复杂,数据湖这一数据管理技术应运而生,数据湖是存储各种原始数据的大型仓库,无需进行结构化处理,可供存... 查看详情
什么是数据湖?有什么用?
导读: 数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应用程序的管理都经历了一个比较自然的演化周期。最开始的时候,每个应用程序会产生、存储大量数据... 查看详情
数据仓库之理论概述
目录(1)什么是数据仓库(2)数据仓库的特点(3)数据仓库发展历程(4)使用数据仓库有哪些优势?(5)数据库、数据仓库、数据湖的区别(6)数仓分层(6.1)为什么... 查看详情
数据仓库之理论概述
目录(1)什么是数据仓库(2)数据仓库的特点(3)数据仓库发展历程(4)使用数据仓库有哪些优势?(5)数据库、数据仓库、数据湖的区别(6)数仓分层(6.1)为什么... 查看详情
[转帖]什么是数据湖?有什么用?终于有人讲明白了……(代码片段)
什么是数据湖?有什么用?终于有人讲明白了…… http://www.sohu.com/a/297380534_464033 2019-02-2421:15导读:数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。最开始,企业对种类庞杂的应... 查看详情
最新大厂数据湖面试题,知识点总结
本文是一篇数据湖的面试题,同时也是数据湖知识点的讲解目录:一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别... 查看详情
数据湖&数据仓库,别再傻傻分不清了
摘要:什么是数据湖?它有什么作用?今天将由华为云技术专家从理论出发,将问题抽丝剥茧,从技术维度娓娓道来。什么是数据湖如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的... 查看详情
数据湖:iceberg概念及回顾什么是数据湖
Iceberg概念及回顾什么是数据湖一、回顾什么是数据湖数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析... 查看详情
数据湖:存储全量数据,快速实现洞察(代码片段)
目录数据湖是开疆拓土不是替代既有产品1)数据湖通常是企业中全量数据的单一存储。2)数据湖的主要特征日益明显。3)数据库、数据仓库、数据湖是数据技术不断发展的结果,是传承不是取代。4)数据湖... 查看详情
数据中台应用实战50篇-带你概览bi数据仓库数据湖与数据中台之间有什么关联关系?(建议收藏)
前言数据中台最核心的是OneData体系。这个体系实质上是一个数据管理体系,包括全局数据仓库规划、数据规范定义、数据建模研发、数据连接萃取、数据运维监控、数据资产管理工具等。数据仓库是为企业所有级别的决策制定... 查看详情