正文

数据湖之hudi：什么是数据湖

电光闪烁  电光闪烁  2022-12-01  628

关键词：

0. 相关文章链接

1. 什么是数据仓库

2. 什么是数据湖

3. 数据仓库Data Warehouse与数据湖DataLake 区别

4. 湖仓一体DataLake House

5. 数据湖总结

0. 相关文章链接

大数据基础知识点文章汇总

1. 什么是数据仓库

数据仓库（英语：Data Warehouse，简称数仓、DW）,是一个用于存储、分析、报告的数据系统。
数据仓库的目的是构建面向分析的集成化数据环境，分析结果为企业提供决策支持（Decision Support）。

数据仓库的特点是本身不生产数据，也不最终消费数据。
每个企业根据自己的业务需求可以分成不同的层次。但是最基础的分层思想，理论上分为三个层：操作型数据层（ODS）、数据仓库层(DW)和数据应用层(DA)。

2. 什么是数据湖

数据湖（Data Lake）和数据库、数据仓库一样，都是数据存储的设计模式，现在企业的数据仓库都会通过分层的方式将数据存储在文件夹、文件中。
数据湖是一个集中式数据存储库，用来存储大量的原始数据，使用平面架构来存储数据。

定义：一个以原始格式(通常是对象块或文件)存储数据的系统或存储库，通常是所有企业数据的单一存储。
数据湖可以包括来自关系数据库的结构化数据(行和列)、半结构化数据(CSV、日志、XML、JSON)、非结构化数据(电子邮件、文档、pdf)和二进制数据(图像、音频、视频)。

数据湖越来越多的用于描述任何的大型数据池，数据都是以原始数据方式存储，知道需要查询应用数据的时候才会开始分析数据需求和应用架构。

数据湖中数据，用于报告、可视化、高级分析和机器学习等任务。

3. 数据仓库Data Warehouse与数据湖DataLake 区别

数据仓库是一个优化的数据库，用于分析来自事务系统和业务线应用程序的关系数据。
数据湖存储来自业务线应用程序的关系数据，以及来自移动应用程序、IoT 设备和社交媒体的非关系数据。

数据湖并不能替代数据仓库，数据仓库在高效的报表和可视化分析中仍有优势。
数据仓库：使用良好范式规范数据，无法生成数据所需的洞察。
数据湖：新的原始数据存储和处理范式，缺乏结构和治理，会迅速沦为“数据沼泽”。

4. 湖仓一体DataLake House

Data Lakehouse（湖仓一体）是新出现的一种数据架构，它同时吸收了数据仓库和数据湖的优势，数据分析师和数据科学家可以在同一个数据存储中对数据进行操作，同时它也能为公司进行数据治理带来更多的便利性。
LakeHouse使用新的系统设计：直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。

湖仓一体LakeHouse：是一种结合数据湖和数据仓库优势的新范式，从根本上简化企业数据基础架构，并且有望在机器学习已渗透到每个行业的时代加速创新。

5. 数据湖总结

数据湖技术本质上：实现全量数据单一存储的高级架构，可以存储任意规模、任意类型、需求各种速度的数据。需任何预处理，消除数据采集和存储的复杂性，加速应用数据。

注：Hudi系列博文为通过对Hudi官网学习记录所写，其中有加入个人理解，如有不足，请各位读者谅解☺☺☺

注：其他相关文章链接由此进（包括Hudi在内的各大数据相关博文） -> 大数据基础知识点文章汇总

数据湖之基于flink+hudi+hive的实践(代码片段)

...于在9月份出来了。hudi可以兼容在hadoop基础之上存储海量数据，不仅可以进行批处理，还可以在数据湖上进行流处理，即离线与实时结合。并且同时提供了2种原生语义：1）Up 查看详情

数据湖之hudi源码编译(代码片段)

...编译成功。五、通过spark-shell来访问hudi，读取hudi表的数据编译出的spark包在 packaging/hudi-spark-bundle/target目录下面：spark-shell\\>--masterlocal[2]\\>--jars/root/bigdata/hudi/hudi/packaging/hudi-spark-bundle/ta 查看详情

hudi自带工具deltastreamer的实时入湖最佳实践(代码片段)

...：本文介绍如何使用Hudi自带入湖工具DeltaStreamer进行数据的实时入湖。本文分享自华为云社区《华为FusionInsightMRS实战-Hudi实时入湖之DeltaStreamer工具最佳实践》，作者：晋红轻。背景传统大数据平台的组织架构是针对离... 查看详情

华为云mrs基于hudi和hetuengine构建实时数据湖最佳实践(代码片段)

数据湖与实时数据湖是什么？各个行业企业都在构建企业级数据湖，将企业内多种格式数据源汇聚的大数据平台，通过严格的数据权限和资源管控，将数据和算力开放给各种使用者。一份数据支持多种分析，是数据湖最大的特点... 查看详情

apachehudi数据湖概述(代码片段)

...的基本原理基础文件增量日志文件文件组文件的版本COW表数据的更新MOR表数据的更新MOR表的compacthudi不同表格式的读取方式COW表数据的读取MOR表数据的读取不同表格式的特性Hudi的应用mysqlcdc分库数据查询异常数据准实时分析准实... 查看详情

hudi核心知识点详解——快速入门数据湖(代码片段)

文章目录1数据湖与数据仓库的区别？2Hudi基础功能2.1Hudi简介2.2Hudi功能2.3Hudi的特性2.4Hudi的架构2.5湖仓一体架构3Hudi数据管理3.1Hudi表数据结构3.1.1.hoodie文件3.1.2数据文件3.2数据存储概述3.3Metadata元数据3.4Index索引3.4.1索引策略3.5D... 查看详情

数据湖07：apachehudi原理和功能概述

系列专题：数据湖系列文章 Hudi是Uber公司开源的数据湖架构，数据湖架构是近些年出现的一种新的技术架构，主要是解决目前大数据中Hive储存的一些痛点。HUDI的名字来自四个英文单词的缩写（HadoopUps... 查看详情

数据湖07：apachehudi原理和功能概述

数据湖技术之hudi集成spark(代码片段)

数据湖技术之Hudi集成Spark数据湖框架Hudi，从诞生之初支持Spark进行操作，后期支持Flink，接下来先看看与Spark整合使用，并且在0.9.0版本中，提供SparkSQL支持，编写DDL和DML操作数据。文章目录数据湖技术之Hudi... 查看详情

实时数据湖flinkhudi实践探索

...他们的数仓方案。所以，今天我介绍的主题是Flink和Hudi在数据湖Streaming方向的一些探索和实践，将会围绕以下四点展开：ApacheHudi背景介绍FlinkHudi设计Hudi应用查看详情

2天，撸完flink+hudi+iceberg数据湖落地系统，爽！

数仓技术应对关系型结构化数据游刃有余，但对于多元异构数据，却爱莫能助。最近行业大佬都在聊怎么部署数据湖，这波操作未来走向如何？数据湖技术能够实现全量数据的单一存储，通常存储原始格式的... 查看详情

数据湖-hudi概述

前言数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据（无需先对数据进行结构... 查看详情

新一代流式数据湖平台apachehudi学习笔记-基础知识&定义

什么是Hudi？使用Hudi管理数据和基本概念理解，不处理和使用。仅是管理数据。发稿时，当前最新版本是V0.10.0为什么学习ApacheHudiHudi是一个数据湖的框架。通过目录和表（分区，列式存储）进行管理。诞生于Uber并开源。数据仓库... 查看详情

“数据湖三剑客”hudi、deltalake和iceberg深度对比

...爱生活又放荡不羁的程序猿本文主要讲解如下内容：一、数据湖的优点二、目前有哪些开源数据湖组件三、三大数据湖组件对比数据湖相比传统数仓而言，最明显的便是优秀的T+0能力，这个解决了Hadoop时代数据分析的顽疾。传统... 查看详情

揭秘数据湖——长文详解hudi从内核到实战（一）

参考技术AHudi入门与构建Hudi介绍Hudi将带来流式处理大数据，提供新数据集，同时比传统批处理效率高一个数据量级。Hudi快速构建把apache-maven-3.6.1-bin.tar.gz上传到linux的/opt/software目录下。解压apache-maven-3.6.1-bin.tar.gz到/opt/module/目录... 查看详情

apachehudi在b站构建实时数据湖的实践

简介： B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。本文作者喻兆靖，介绍了为什么B站选择Flink+Hudi的数据湖技术方案，以及针对其做出的优化。主要内容为：传统离线数仓痛点数据湖技... 查看详情

深度对比deltaiceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、ApacheIceberg和ApacheHudi。其中，由于ApacheSpark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的Delta也显得格外亮眼。ApacheHudi是由Uber的工程师为满足其... 查看详情

flink版本数据湖(hudi)实时数仓---flinkcdchudikafakhive(代码片段)

...2.1通过flinkcdc的两张表合并成一张视图，同时写入到数据湖(hudi)中同时写入到kafka中2.2实现思路1.在flinksql中创建flinkcdc表2.创建视图(用两张表关联后需要的列的结果显示为一张速度)3.创建输出表，关联Hudi表，并且自动... 查看详情