mrs+lakeformation:打造一站式湖仓,释放数据价值

华为云开发者联盟 华为云开发者联盟     2023-03-03     209

关键词:

摘要:华为LakeFormation是企业级的一站式湖仓构建服务。

本文分享自华为云社区《华为云MRS支持LakeFormation能力,打造一站式湖仓,释放数据价值】》,作者:breakDawn 。

1 背景

1.1 数仓和数据湖的概念

数据分析技术在2010~2019年间,以湖仓两层架构技术作为主流被各数据厂商所应用,即大数据数仓+数据湖的技术形式。

  • 大数据数仓:出现最早,也最完备,从单机向分布式、智能化发展。例如 Hive、华为DWS等
  • 数据湖:狭义上的湖主要是云厂商参与,以统一的对象存储底座结合云平台水平扩展的计算资源,让分析以数据为本、让业务快起来。

1.2 传统湖仓技术的挑战

以上技术在多年的实践中,逐步衍生出了以下的一些挑战:

  • 随着数据和AI业务持续创新,跨集群、跨服务的数据分析成为普遍需求。然而各集群、各服务各自持有元数据,难共享,难维持一致,需要元数据ETL操作才能共享。
  • 数据湖、数仓、AI数据化,导致数据虽然可以统一存储在OBS孤岛,但各服务元数据独自管理,形成数据管理的孤岛。
  • 湖仓协同仅能通过外表来访问,元数据、认证、权限都不能统一配置和管理,尤其是权限不统一严重阻碍了数据跨引擎共享。

上述问题导致了构建、保护和管理数据湖的过程复杂且耗时,通常需要大量开发和维护成本,解决这一问题的关键在于引擎元数据需要互通,只有构建满足各种引擎需求的数据湖统一元数据服务视图,才能实现数据共享避免其中额外的ETL成本以及降低链路的延时。

1.3 湖仓一体架构的出现

为了解决上述数据湖的相关挑战,2019年左右,业界开始出现一种新的数据架构,叫做DataLakehouse(湖仓一体),它同时吸收了数据仓库和数据湖的优势,能够在存算分离的基础上,构建统一元数据层,上层服务通过统一元数据层,便捷高效地共享数据和权限管理。因此数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,为公司进行数据治理带来更多的便利性。

2 华为lakeFormation服务关键能力

华为LakeFormation是企业级的一站式湖仓构建服务,提供了数据湖元数据统一管理的可视化界面及API,兼容Hive元数据模型以及Ranger权限模型,支持无缝对接多种计算引擎(Hive、Spark等)及大数据云服务(MRS等),使客户便捷高效地构建数据湖和运营相关业务,加速释放业务数据价值,是数智融合的关键基础设施。该产品具有以下关键能力:

  • 丰富的元数据和数据权限管理

华为lakeformation支持Catalog和跨源管理,以及库/表/函数的集中管理,可解决多种不同元数据类型之间互有差异的痛点,无需再引入第三方ETL进行查看和管理,并实现了统一的细粒度数据权限管理,支持跨服务/跨集群的数据共享。

  • 生态开放

华为LakeFormation兼容社区接口、支持平滑对接和迁移,提供了兼容Hive/Spark/Flink/Trino社区的元数据接口,支持计算引擎平滑对接,同时兼容Ranger的权限接口,支持一次授权,统一生效。

  • 大规模、高可靠

华为LakeFormation支持处理海量数据业务,具有百万级超大规模元数据管理能力,以及多AZ的容灾能力,可为业务持续性提供稳定保障,且采用Serverless架构,开箱即用,简单易上手。

3 华为云MRS支持lakeformation创造数据价值

3.1 Lakeformation给MRS带来的场景价值

以数智融合场景为例,当大数据用户在MRS中创建了表T1时, 数仓用户可通过lakeformation观察到表T1的元数据,并通过其他MRS集群中写入正确的数据内容。

当用户希望通过华为MRS读取T1数据时,可借助LakeFormation查看T1表,再进行T1数据的获取,整个过程中减少了多个MRS集群协同运作时的复杂ETL操作,大大提升了数据使用的效率。

另外,当企业用户的安全管理员希望对不同MRS集群中同一业务类型的元数据进行ranger权限限制时,可通过LakeFormation进行一次授权,统一生效,充分提高了管理效率,简化管理流程。

3.2 MRS服务对接lakeformation能力展示

华为MRS用户可基于最新上线的LakeFormation数据连接能力,实现LakeFormation实例的创建和授权。

在MRS控制台的数据连接页面,支持创建如下图所示的LakeFormation数据连接:

建立完成LakeFormation数据连接后,即可在MRS集群概览中,配置该数据连接,实现MRS和LakeFormation之间的数据关联。

后续再根据产品资料指导完成MRS集群组件相关配置后, 即可正常使用LakeFormation统一的数据湖元数据及权限管理,实现元数据的管理互通、统一赋权,根据统一的元数据进行业务作业提交等。

当用户在LakeFormation中针对MRS集群的catalog建立了department表后

其他用户可在对应MRS集群的hive客户端中观察这个department表的元数据。

反过来,用户通过MRS的hive客户端创建一个employe表后,可以在LakeFormation中看到该元数据信息。

另外也可通过数据权限能力,修改数据表的权限策略,并直接同步到MRS的权限管理组件中。

4 总结

对云端用户而言,业务价值发现是最重要的,华为MRS支持LakeFormation后,成功降低了数据应用的成本,帮助客户落地“存”与“算”的管理,加快推进了数智融合进程,更大程度地释放业务数据价值。

点击关注,第一时间了解华为云新鲜技术~

spark+flink+iceberg打造湖仓一体架构实践探索

参考技术AIceberg0.11新特性,支持了流式小文件合并。通过分区/存储桶键使用哈希混洗方式写数据、从源头直接合并文件,这样的好处在于,一个task会处理某个分区的数据,提交自己的Datafile文件,比如一个task只处理对应分区的... 查看详情

湖上建仓全解析:如何打造湖仓一体数据平台|deepnova技术荟系列公开课第四期

如今,面对数字化快速发展带来的挑战,现代化企业需要打破以往数据的孤岛,让数据从采集、加工、管理到应用,是统一的数据存储和数据处理,甚至是作为全栈式的湖仓一体数据平台,以支撑各类数据... 查看详情

阿里云表格存储全面升级,打造一站式物联网存储新方案

简介: 阿里云表格存储全面升级,打造一站式物联网存储新方案2021年9月1日,阿里云表格存储Tablestore重磅发布新能力:一站式物联网存储IoTstore。该新能力是阿里云表格存储Tablestore面向物联网深度垂直场景进行... 查看详情

一站式打造你的智能语音产品欧拉蜜麦克风阵列板登陆众筹

650)this.width=650;"src="https://s4.51cto.com/wyfs02/M01/A3/14/wKioL1mj4enA9GdgAAFfesJZjog451.jpg-wh_500x0-wm_3-wmp_4-s_3739544828.jpg"title="头图.jpg"alt="wKioL1mj4enA9GdgAAFfesJZjog451.jpg-wh_50"/>201 查看详情

区块链第一站硅谷站签约仪式于北京成功举办共同打造区块链第一站品牌名片

...一站凭借着自身优质的品牌实力,与Poseidon达成共同打造区块链第一站的合作目标。区块链第一站品牌授权仪式在国际数字经济产业园隆重举行,Poseidon正式成为区块链第一站的战略合作伙伴,Poseidon所拥有的场地正式... 查看详情

区块链第一站硅谷站签约仪式于北京成功举办共同打造区块链第一站品牌名片

...一站凭借着自身优质的品牌实力,与Poseidon达成共同打造区块链第一站的合作目标。区块链第一站品牌授权仪式在国际数字经济产业园隆重举行,Poseidon正式成为区块链第一站的战略合作伙伴,Poseidon所拥有的场地正式... 查看详情

数商云有色金属电商平台解决方案,打造了一站式的闭环交易环境

因为疫情影响,世界经济持续低迷,主要经济体增速放缓,频发的“黑天鹅”时间频发,刺激着我国经济雨来越敏感而脆弱的神经,国内经济新常态下,行业均出现增长持续乏力的无奈,有色金属行业... 查看详情

uibotstore震撼上线!全面打造一站式办公自动化服务平台

由来也科技倾力打造的一站式办公自动化服务平台——UiBotStore正式上线了!UiBotStore下载地址:https://store.uibot.com.cn/如今,作为“虚拟员工”的RPA,已被广泛应用于金融业、电商、财税、新零售、制造业、物流等众多行业领域,... 查看详情

打造一站式采购结算平台,纸业b2b电子商务交易平台促进企业降本增效

造纸业作为重要的基础原材料产业,在国民经济中占据重要地位,造纸业关系到国家的经济、文化、生产、国防各个方面,其产品用于文化、教育、科技和国民经济的众多领域,随着中国纸业市场的高速扩张,... 查看详情

打造一站式采购结算平台,纸业b2b电子商务交易平台促进企业降本增效

造纸业作为重要的基础原材料产业,在国民经济中占据重要地位,造纸业关系到国家的经济、文化、生产、国防各个方面,其产品用于文化、教育、科技和国民经济的众多领域,随着中国纸业市场的高速扩张,... 查看详情

大数据架构系列:如何理解湖仓一体?

...。该专栏是腾讯云开发者社区为腾讯技术人与广泛开发者打造的分享交流窗口。栏目邀约腾讯技术人分享原创的技术积淀,与广泛开发者互启迪共成长。本文作者是腾讯后台开发工程师叶强盛。引言这十多年大数据技术蓬勃... 查看详情

大数据架构系列:如何理解湖仓一体?

...。该专栏是腾讯云开发者社区为腾讯技术人与广泛开发者打造的分享交流窗口。栏目邀约腾讯技术人分享原创的技术积淀,与广泛开发者互启迪共成长。本文作者是腾讯后台开发工程师叶强盛。引言这十多年大数据技术蓬勃... 查看详情

thingjs3年进化史:为40万物联网开发者打造一站式数字孪生服务平台

...向所有的开发者、用户展示了低门槛、强实力、全赋能的一站式数字孪生服务平台ThingJS2.0。ThingJSPaaS平台负责人沈祎岗为大家介绍:「ThingJS如何为3D可视化开发赋能」以下为演讲正文:感谢各位用户对ThingJS的大力支持。... 查看详情

华为如何打造物联网开发新平台—devcloud和liteos的完美结合

...为30年研发实践、前沿研发理念、先进研发工具,打造的一站式云端Devops平台,支持互联网开发、移动应用开发、微服务开发等主流研发场景,也同样支持物联网相关嵌入式开发场景。目前,在Devcloud代码托管平台,已经开放了Li... 查看详情

独立部署,云端可定制,打造独一无二考试系统

...署?可以!想要独一无二?太可以了!1、一站式学习考试系统先学 查看详情

独立部署,云端可定制,打造独一无二考试系统

...署?可以!想要独一无二?太可以了!1、一站式学习考试系统先学 查看详情

hmscorekeyring携手航班管家和高铁管家,打造美好出行体验

...买⽕⻋票App之⼀,日活用户超380万,为⽤户提供一站式铁路出⾏服务。高铁管家母公司——深圳市活⼒天汇科技股份有限公司是国内智能⼤出⾏的开创者,先后推出航班管家、⾼铁管家等产品,旗下共2亿注册用户... 查看详情

hmscorekeyring携手航班管家和高铁管家,打造美好出行体验

...买⽕⻋票App之⼀,日活用户超380万,为⽤户提供一站式铁路出⾏服务。高铁管家母公司——深圳市活⼒天汇科技股份有限公司是国内智能⼤出⾏的开创者,先后推出航班管家、⾼铁管家等产品,旗下共2亿注册用户... 查看详情