alluxio为presto赋能跨云的自助服务能力

Alluxio Alluxio     2022-12-13     806

关键词:

目录

什么样的架构能够称之拥有自助服务能力?

设计数据平台的考虑因素

结论


本文重点介绍两大流行开源项目Alluxio 和 Presto之间的协同作用,并展示如何利用两者实现跨云自助服务数据架构。

作者介绍
范斌 Alluxio VP Open Source and Founding Member
Adit Madan Alluxio Senior Product Manager
Jasmine Wang Alluxio Community Manager

什么样的架构能够称之拥有自助服务能力?

我们先来探讨一个问题,满足什么条件,这个架构才能称得上是自助服务。

条件1:随着数据平台的更新换代,架构无需修改

所有的数据平台都会随着时间的推移而演进,包括增加新的数据存储、计算引擎,或者有新的团队需要访问共享数据。无论哪种情况,如果这些变化而不需要对现有架构进行修改,则这样的平台是能够自助服务。

条件2:跨团队的数据隔离

有了自助服务平台,业务部门之间不会互相干扰。当有新团队加入时,数据可以共享,新增的数据访问不会影响原有平台的使用。

如果能满足上述两个条件,也就实现了敏捷性。在设计架构的时候,考虑能否实现自助式服务比考虑物理架构的成本更重要。

设计数据平台的考虑因素

下面,我们将介绍设计自助服务平台时的部分考虑因素,以及简化的架构模式和解决方案。

考量1:数据是共享的

在不同的计算框架之间共享数据

  • 企业在数据平台中会使用各类计算引擎,每个引擎都完成某个特定的任务,例如,先进行ETL批处理,然后用Presto进行交互式查询。这就意味数据要在不同引擎、不同的团队之间共享
  • 例如,一个团队负责收集业务数据,数据共享给多个业务部门使用

跨区域的数据中心以及跨云厂商共享数据

  • 这样可以灵活地选择最优的存储环境和云服务

如何在解决数据共享问题,我们提出一个抽象层的概念,利用抽象层实现跨跨环境的异构计算。Alluxio正是提供了这样的跨云抽象层,无论数据存储在哪里,都能让Presto和其他计算引擎之间实现无缝数据共享。

考量2:数据拥有所属的业务领域,最简单的方式是留在原地处理

  • 虽然拷贝能实现数据隔离,但当数据访问策略十分严格时,需要对数据生产者对数据的使用需要严格控制,整个数据治理会变得非常复杂。
  • 数据拷贝导致存储空间冗余,容易出错,占用很多的资源。

拷贝数据显然不是理想的解决方案,但如何在不移动数据的情况下对异构的数据访问实现高性能?这就需要通过抽象层来解决数据治理、性能和跨业务移动数据的问题。

下面的架构展示Presto如何利用Alluxio作为抽象层来访问位于不同存储环境的数据。

一般会遇到这两种情况:

  • 全部数据都在单云或单个数据中心中
  • 数据在多个数据中心或混合云中共享

不管哪种情况,Alluxio都能作为抽象层来实现数据使用者和生产者的隔离。抽象层并非仅仅用作缓存,事先的预加载和写入能力可以确保即使是在数据与计算分离的情况下, SLA也能保持一致。

结论

Alluxio为Presto赋能了自助服务的能力,通过Alluxio可实现跨云的自助服务数据架构,整个架构能够更好地适应数据平台的演进。如果想要了解更多信息,可查看白皮书《Alluxio+Presto概述——交互式查询的架构演变》,了解Facebook、TikTok、Electronic Arts、沃尔玛、腾讯、Comcast等公司如何利用Alluxio优化Presto平台。

自助式跨云it治理平台之功能架构

灵雀云自助式跨云IT治理平台帮助企业跨云、跨环境地管理基础设施资源,同时对接企业账号体系,方便IT部门的资源申请和成本管理,实现自助IT服务。650)this.width=650;"src="http://www.alauda.cn/images/features3.jpg"width="1200"height="852"alt="fea... 查看详情

揭秘presto+alluxio的n个核心“黑魔法“

揭秘Presto+Alluxio的N个核心"黑魔法"Prestocommitter教你构建海量数据OLAP查询引擎活动回顾活动回顾:在探索Alluxio系列活动中,Alluxio的资深软件工程师王北南博士,为我们介绍讲述了Presto+Alluxio构建大规模... 查看详情

使用presto和alluxio在aws上搭建高性能平台来支持实时游戏服务(代码片段)

...业务发展至关重要。本文介绍了在AWS上搭建的基于Presto和Alluxio的数据平台,如何为游戏产业提供即时响应的在线服务。EA的数据与人工智能部门搭建了数百个平台,来管理游戏和用户每天产生的PB级数据。这些平台包含从... 查看详情

uber实战案例:基于alluxio实现presto缓存

01Uber的业务场景如上图所示,在Uber,所有的决策都与数据有关。Presto以及其他各种查询引擎在Uber是被广泛使用的。例如,运营团队在Dashboard等服务中大量使用了Presto,而UberEats和市场团队也依赖于这些查询结果来... 查看详情

b站presto+alluxio:b站数据库系统性能提升实践

...一问题,B站做了诸多的实践探索,采用Presto搭配Alluxio的模式来提高系统性能,具体的探索内容将从以下4个维度进行分享:内容概览:B站离线集群架构>>B站SQLOnHadoop的架构,整体包含5个部分:最上... 查看详情

金山云团队分享|5000字读懂presto如何与alluxio搭配

...队(赵侃、李金辉)在交互查询场景下对Presto与Alluxio相结合进行了一系列测试,并总结了一些Presto搭配Alluxio使用的建议。本次测试未使用对象存储,计算引擎与存储间的网络延时也比较低。如果存储IO耗时和网络... 查看详情

uber实战案例:基于alluxio实现presto缓存

01Uber的业务场景如上图所示,在Uber,所有的决策都与数据有关。Presto以及其他各种查询引擎在Uber是被广泛使用的。例如,运营团队在Dashboard等服务中大量使用了Presto,而UberEats和市场团队也依赖于这些查询结果来... 查看详情

alluxio增强spark和mapreduce存储能力

Alluxio的前身为Tachyon。Alluxio是一个基于内存的分布式文件系统;Alluxio以内存为中心设计,他处在诸如AmazonS3、ApacheHDFS或OpenStackSwift存储系统和计算框架应用ApacheSpark或HadoopMapReduce中间,它是架构在底层分布式文件系统和上层分布... 查看详情

meta公司新探索|利用alluxio数据缓存降低presto延迟(代码片段)

目录概要速览Presto架构Presto+数据缓存架构软亲和调度数据缓存本地缓存的内部构成和配置基本缓存单元缓存位置和层级线程并发缓存恢复监控基准测试开销节省节省的扫描数据量:57%缓存命中率如何使用?其他有用的... 查看详情

b站presto+alluxio:b站数据库系统性能提升实践

...一问题,B站做了诸多的实践探索,采用Presto搭配Alluxio的模式来提 查看详情

如何借力alluxio推动大数据产品性能提升与成本优化?

...存算分离将存储系统和计算框架拆分为独立的模块,Alluxio作为如今主流云数据编排软件之一,为计算型应用(如ApacheSpark、Presto)和存储系统(如AmazonS3、AlibabaOSS)的数据访问构建了桥梁。本文使用亚马逊... 查看详情

用友云平台,真正的云原生架构,加速云应用落地

...友云平台身上找到一些答案。云原生风格架构,业务上云赋能云原生平台可以理解为,以云计算相关的云原生技术为基础的落地平台。用友云平台基于云原生架构的基础,赋能所有云成为真正的云架构平台。它包含了三个层面的... 查看详情

波卡上的xcm如何赋能跨链用例

MoonbeamConnectedContracts跨链互连方式的最前沿的目标是改善用户体验。Moonbeam致力于从碎片化的区块链的限制解放用户——通过让开发者轻松设计跨链通信的智能合约,用户将面对更少的复杂性。这种扩展和连接是通过使用波卡... 查看详情

alluxio2022技术干货年终大赏

...很多嘉宾参与了我们的社区直播活动17场主题活动(AlluxioDay、Meetup、DatafunSummit等)44位嘉宾44个主题(来自一线大厂的实战者)2000+分钟的分享时长(内容涵盖【金融】【互联网&科技】【大数据】【通信... 查看详情

认识一下mrs里的“中间人”alluxio

摘要:Alluxio在mrs的数据处理生态中处于计算和存储之间,为上层spark、presto、mapredue、hive计算框架提供了数据抽象层,计算框架可以通过统一的客户端api和全局命名空间访问底层的存储系统,并切提供内存级的I/O... 查看详情

meta(facebook):基于alluxioshadowcache优化presto架构决策

...支持标准的ANSISQL.包含查询、聚合、JOIN以及窗口函数等。Alluxio将其在数据层的创新作为Presto和各种分析应用程序和用例的关键支持技术。它创建了一个虚拟数据层,可以聚合来自任何文件或对象存储的数据,提供跨存储... 查看详情

meta(facebook):基于alluxioshadowcache优化presto架构决策

...支持标准的ANSISQL.包含查询、聚合、JOIN以及窗口函数等。Alluxio将其在数据层的创新作为Presto和各种分析应用程序和用例的关键支持技术。它创建了一个虚拟数据层,可以聚合来自任何文件或对象存储的数据,提供跨存储... 查看详情

阿里云容器服务全面升级为ackanywhere,让云的边界拓展至企业需要的每个场景

...云容器服务全面升级为ACKAnywhere,让企业在任何需要云的地方,都能获得一致的容器基础设施能力。此次升级的ACKAnywhere拥有“一致体验、弹性算力、能力下沉、简化容灾”四大核心能力,使企业在任何业务 查看详情