如何快速搭建云原生企业级数据湖架构及实践分享

阿里云云栖号 阿里云云栖号     2022-12-25     111

关键词:

简介: 众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本文主要分享快速搭建云原生企业级数据湖架构及实践分享。

王震,阿里云计算平台事业部 开源大数据平台 技术专家

本文根据王震在 2021开源大数据技术线上Meetup#0821 分享整理

直播回放链接:https://developer.aliyun.com/live/247227

内容框架:

  • 背景介绍
  • 如何使用 DLF数据湖
  • 实操演示

一、背景介绍

什么是数据湖  

数据湖:以一定规则形式存储各种类型的数据

  • 结构化数据( Orc 、Parquet )
  • 半结构化数据 ( Json 、Xml )
  • 非结构化数据(图像 、视频)

为什么需要数据湖    

1、数据规模进一步扩大

  • 大数据存储需要治理
  • 数据治理需要厘清数据依赖关系(血缘)
  • 用户需要明确大数据整体成本(TCO)

2、数据来源多样化

  • 事务数据(MySQL, SqlServer)
  • 搜索数据 (SOLR)
  • 批处理数据 (SPARK, HIVE)

3、数据格式多样化

  • Parquet / Orc / Avro / Csv / Json / Text

4、数据分析场景多样化

  • 基于语义的搜索分析
  • 随机/近实时 OLAP 分析

5、数据分析用户多元化

  • 分析用户角色多元化 (开发/测试/数据/BI)
  • 用户数据访问合规管控诉求

数据湖能做什么

1、针对数据规模进一步扩大

  • 数据湖提供 【数据血缘】服务
  • 数据湖提供 【数据治理】服务
  • 数据湖帮助用户明确大数据的整体成本

2、针对数据来源多样化

  • DLF 提供【统一元数据】服务

• 解决多引擎元数据一致性问题

• 解决元数据使用和维护成本问题

3、针对数据格式多样化

  • DLF 提供【数据入湖/元数据爬取】服务

• 支持 MYSQL/KAFKA 入湖,元数据爬取

• 支持离线/实时入湖, 满足不同业务时效要求

• 支持 DELTA/HUDI 等数据湖格式

4、针对数据分析场景多样化

  • DLF 提供【统一元数据服务】

• 可以切换不同引擎 MC/EMR/DDI

• 数据探索在不同引擎之间一致

5、针对数据分析用户多元化

  • 数据湖提供【访问权限控制】服务

• 多引擎下的数据访问集中授权/避免反复授权

• 解决多用户数据访问合规问题

  • 数据湖提供【访问日志审计】服务

• 解决用用户数据访问合规审查问题

二、如何使用 DLF 数据湖

数据入湖

1、大量异构外部数据源【数据入湖】服务

  • 全量导入 : 批量入湖一次导入
  • 增量导入 : 实时入湖流失增量导入

2、大量现存Hadoop生态数据 【元数据爬取】服务

  • 将数据导入数据湖OSS进行存储
  • 元数据爬取 提取原有数据schema

数据查询

数据湖【统一元数据】服务支持多种引擎查询

  • 使用数据探索(SPARK)对入湖数据进行探查
  • 使用MAXCOMPUTE对数据进行深度复杂加工
  • 使用Databricks DDI专用集群对数据进行探索
  • 更多引擎支持中…

数据治理

一、使用【权限访问控制】服务控制数据访问

  • 进行 库/表/列 级别的访问权限设置
  • 统一的元数据,只需要设置一次

二、使用【数据治理】服务明确大数据总成本

  • 日/周/月 级别的存储使用情况 – 及时释放过时的大存储文件
  • 日/周/月 级别的计算使用情况 – 及时识别数据上的异常计算

三、实操演示

数据湖构建 DLF 体验链接:https://dlf.console.aliyun.com/

原文链接

本文为阿里云原创内容,未经允许不得转载。

数据湖架构及概念简介

...。本篇内容主要分为两个部分:1.数据湖演进历程2.云原生数据湖架构一、数据湖演进历程什么是数据湖?数据湖概念于2010年提出,其目的是解决传统数据仓库和数据集市所面临的两个问题:其一,希望通过统... 查看详情

贾扬清谈云原生-让数据湖加速迈入3.0时代

简介: 摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研究员贾扬清为我们带来《云原生--让数据湖加速迈入3.0时代》的分享。摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级研... 查看详情

云湖共生-释放企业数据价值

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能资深技术专家、对象存储OSS负责人罗庆超为我们带来《云湖共生-释放企业数据价值》的分享。本文主要从数据湖存储演进之路、数据湖存储3.0进化亮点等方面分享... 查看详情

数据湖构建与计算

简介: 2021云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来《数据湖构建与计算》的分享。本文主要从数据的入湖和管理、引擎的选择展开介绍了数据湖方案降本增效的特性。摘要:2021... 查看详情

数据湖构建与计算

摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级产品专家李冰为我们带来《数据湖构建与计算》的分享。本文主要从数据的入湖和管理、引擎的选择展开分享了数据湖方案降本增效的特性。一、面临的挑战... 查看详情

pb级数据秒级分析:腾讯云原生湖仓dlc架构揭秘

...到PB至EB级别。在此基础上,腾讯自研业务也启动了云原生湖仓能力建设。云原生湖仓架构最大的挑战什么?腾讯云原生湖仓DLC从哪些方面着手解决问题?接下来由腾讯云大数据专家工程师于华丽带来相关分享。云原... 查看详情

微服务架构与实践及云原生等相关概念

微服务架构与实践笔记:《微服务架构与实践》王磊著一单块架构  1 定义:对于这种功能集中、代码和数据中心化、一个发布包、部署后运行在同一进程的应用程序,我们通常称之为单块架构应用,并非物理上的分层。... 查看详情

云原生数据湖应用洞察白皮书

内容整理自:艾瑞咨询《中国云原生数据湖应用洞察白皮书》概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有「数据多源异构、统一存储管理、多范式计算、schema后... 查看详情

云原生数据湖应用洞察白皮书

内容整理自:艾瑞咨询《中国云原生数据湖应用洞察白皮书》概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有「数据多源异构、统一存储管理、多范式计算、schema后... 查看详情

金融数据智能峰会|数据规模爆炸性增长,企业如何进行精准决策?云原生数据仓库数据化运营实战分享

...数据价值链路角度切入,为大家解读云原生数据仓库如何支撑数据化运营、全链路营销和阿里集团双11业务,并展示金融客户最佳实践案例和应用场景。本文内容根据演讲录音及PPT整理而成。在日前的2021阿里云金融数据... 查看详情

金融数据智能峰会|数据规模爆炸性增长,企业如何进行精准决策?云原生数据仓库数据化运营实战分享

...数据价值链路角度切入,为大家解读云原生数据仓库如何支撑数据化运营、全链路营销和阿里集团双11业务,并展示金融客户最佳实践案例和应用场景。本文内容根据演讲录音及PPT整理而成。阿里云数据库资深技术专家魏... 查看详情

青云云原生沙龙线上集结,找到属于你的云原生实践之路

...技术体系、方法论及文化更是企业数字化战略的关键一环如何快速实现云原生落地?如何选择符合自身需求的云原生实践之路?如何以云原生构建高可用应用架构?如何实现应用敏捷、业务智能?5月25日14:00青云... 查看详情

青云云原生沙龙线上集结,找到属于你的云原生实践之路

...技术体系、方法论及文化更是企业数字化战略的关键一环如何快速实现云原生落地?如何选择符合自身需求的云原生实践之路?如何以云原生构建高可用应用架构?如何实现应用敏捷、业务智能?5月25日14:00青云... 查看详情

偶数科技:基于oushudb的新一代云原生湖仓一体为企业助力

实时性数据分析需求暴增,偶数湖仓一体为企业助力在愈发复杂的大数据场景下,数据仓库与数据湖各自的弊端开始显现,湖仓一体架构走向舞台中央。在国外有两种流行的实现数据湖仓的技术,他们分别是基于数据仓库和基于... 查看详情

mrshetuegine的数据虚拟化实践

摘要:华为MRS云原生数据湖平台的HetuEngine就是一款解决大数据时代跨源跨域问题的数据虚拟化引擎。本文分享自华为云社区《基于华为云原生数据湖MRSHetuEgine的数据虚拟化实践》,作者:前锋。数据虚拟化是指一种... 查看详情

云原生数据湖是什么?

...I时代融合存储和计算的全新体系,特别是数据湖和云原生结合以后,这一趋势更加明显。要想理解这一点,还要从数据湖的发展说起。数据湖的崛起​2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(JamesDix... 查看详情

云原生数据湖元数据管理在滴普科技的实践

元数据在数据湖上的重要性不言而喻,借用阿里云官方社区的一张图:这幅图描绘了数据湖分析平台的总体构架,它主要包括五个模块:数据源:原始数据存储模块,包括结构化数据(Database等)、半结构化(F... 查看详情

指数级暴增场景复杂下,揭秘百度云原生湖仓架构等系列数据产品

...席会议,共同探讨了大数据发展新形势下,企业如何运用云智技术打造满足数字化、智能化转型的安全可靠的数据基础设施和价值挖掘平台,发挥数据资产的核心价 查看详情