如何借力alluxio推动大数据产品性能提升与成本优化?

Alluxio Alluxio     2023-03-01     762

关键词:

内容简介

随着数字化不断发展,各行各业数据呈现海量增长的趋势。存算分离将存储系统和计算框架拆分为独立的模块,Alluxio作为如今主流云数据编排软件之一,为计算型应用(如 Apache Spark、Presto)和存储系统(如 Amazon S3、Alibaba OSS)的数据访问构建了桥梁。

本文使用亚马逊云、阿里云服务商产品,对Presto、Hive等计算框架与不同UFS直连时的关键性能指标进行测评,同时给出集成Alluxio组件后的性能评估,得出以下结论:

√ Alluxio 可减少任务运行时间(低带宽情况下甚至可以减少一个数量级)和 CPU时间;这表明 Alluxio 一定程度上可以节省带宽并减轻服务器运算压力。
√ Alluxio 可更好地兼容众多底层存储系统,这表明在不损失性能的前提下,选择价格更为低廉的对象存储系统(如Alibaba OSS, Amazon S3)。
简而言之,集成数据驱动软件 Alluxio 既能提升性能,又能降低运营成本。

实验设计

本实验采用 TPC-DS 生成的 1GB 数据集,选择19条SQL作为该实验工作负载。[1]

我们将原始数据存到底层存储系统中,使用Hive管理原始数据和元数据,将Presto作为计算应用,形成 Presto → Hive → (Alluxio →) HDFS/OSS/S3 的连接模式,并进行Presto直接读UFS和Presto通过Alluxio缓存读UFS两种对比测试。我们采用挂钟时间(WallTime,执行查询花费的总时间)和CPU时间(ProcessCpuTime,处理查询所花费的总CPU时间)两组测量指标进行对比测试。

实验结果与意义

实验结果分析

通过TPC-DS测试的对比后,可得出以下几点结论:

(1)Alluxio 可减少挂钟时间,在低带宽下尤为明显。

√ 图1-1是在AWS上,使用HDFS作为存储系统,统计挂钟时间均值(AWS实例带宽最高可达10G/s,性能小幅度提升):

√ 图1-2是在阿里云上,使用HDFS作为存储系统,统计挂钟时间均值(选择阿里云按量付费最高带宽200M/s):

√ 图1-3是在阿里云上,使用HDFS作为存储系统,统计挂钟时间均值(低带宽模式,带宽15M/s),可以看到性能提升一个数量级。

(2)Alluxio 可节省带宽。由图1-2和图1-3可知,若想在无Alluxio的情况下达到有Alluxio的效果,需要设法进一步提升公网带宽。

(3)Alluxio 一定程度上可减轻服务器运算压力,CPU时间较短。

图2-1是在阿里云上使用HDFS作为存储系统,统计CPU时间。

图2-2是在AWS上使用S3作为存储系统,统计CPU时间。

(4)Alluxio 为计算框架和存储系统的数据访问搭建桥梁,大大降低运行环境配置难度。目前 Presto 对 S3 兼容性较好,但对 OSS 和 COS 兼容性较差,目前尚无Presto直接访问OSS数据的方案。但用Alluxio则无需考虑计算框架和底层存储系统的兼容性问题,因为Presto对Alluxio、Alluxio对OSS兼容性很好,配置环境很容易。

(5)由于无需考虑计算框架与底层存储系统兼容性,则可使用价格更为低廉的对象存储系统,其带宽成本与维护成本均比 Hadoop 低。并且由图3-1和图3-2得知Alluxio缓存读情况下性能差别并不明显,但对象存储系统价格更为低廉,因此对象存储可作为存储系统更好的选择。

图3-1为使用AWS服务器,分别对 HDFS 和 S3 进行测试,统计挂钟时间。

图3-2为使用阿里云服务器,分别对 HDFS 和 OSS 进行测试,统计挂钟时间。

对象存储与HDFS存储成本对比

由于云服务产品种类繁杂、使用相同产品不同的应用场景下开销差异较大。以本实验为例,云服务主要开销由存储、数据传输和云服务器三个部分构成,故我们仅对本实验使用云服务产品及其他常用云服务产品进行上述指标的定量分析(忽略诸如数据请求、对象清单等极低成本服务的指标),扩展服务及其详细价格详情请参考云服务产品价格页面。

亚马逊云

亚马逊服务器使用 S3 和 HDFS 作为存储系统时(HDFS 使用 EBS 存储,因此以美国东部俄亥俄2023年1月6日 S3 Standard 和 EBS 为例),价格对比如下(数据来源:Amazon S3 价格、Amazon EC2 实例价格、Amazon EBS 定价 ):

(1)存储

本实验采用S3 Standard 、通用型SSD (gp2) 和一张普通快照,S3 每 GB 存储价格仅为 gp2 的 1/7~1/6。即使数据量增大,使得运行环境占用存储忽略不计,在不考虑快照的情况下,S3 Standard 数据存储价格仅为 gp2 的1/4~1/3。

(2)数据传输

AWS两者公网流出流量价格一致,公网流入流量均免费。

(3)服务器成本

服务器成本请参考 Amazon EC2 实例价格,S3 并无此项成本,而 EC2 成本很高,以本实验存储系统用到的实例为例(美国东部俄亥俄2023年1月6日 r5a.large 价格)。

阿里云

以2023年1月12日华北1(青岛)区域的 OSS 标准型存储和块存储 (EBS) 为例(数据来源:对象存储OSS 定价详情、块存储定价详情)。

(1)存储

本实验采用 OSS 标准存储(本地冗余)、ESSD 云盘 PL0 和一个普通快照,可见在 Alluxio 缓存读性能相近情况下,OSS 每 GB 存储价格仅为 EBS 的 1/6~1/5。

(2)数据传输

本实验采用按量付费带宽。可见 OSS 带宽成本比 HDFS 带宽成本要低一些。倘若OSS开启CDN加速,理论上可进一步提升带宽速度并降低带宽成本。

(3)服务器成本

服务器成本请参考 云服务器 ECS,OSS 并无此项成本,而 ECS 成本很高,以本实验存储系统用到的实例为例(华北1青岛2023年1月12日 ecs.r6.large 价格)。

总结

综合亚马逊云、阿里云的存储、数据传输和服务器成本,使用对象存储系统的开销要比HDFS低很多,而使用 Alluxio 可十分方便地接入各种存储系统,这无疑意味着可大大降低企业运营成本。

想要了解更多关于Alluxio的干货文章、热门活动、专家分享,可点击进入【Alluxio智库】

参考
^我们选择和《SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures》(Proceedings of the VLDB Endowment, Vol. 7, No. 12)相同的20条SQL作为该实验工作负载。Q59 由于过于复杂,运行时间过长,内存消耗过大,测试难度较大,故该实验仅对其他19个SQL进行测试。

中小企业如何借力工业互联网抵抗死亡潮?

对于不同的企业来说,跨步进入工业互联网的核心问题并不是“怎么做”,而是“能做什么”、以及“能不能做”。尤其是在政策大力推动企业“上云上平台”的过程中,企业投入人力和成本,那么“上云了之后能做什么”就成... 查看详情

b站presto+alluxio:b站数据库系统性能提升实践

...一问题,B站做了诸多的实践探索,采用Presto搭配Alluxio的模式来提 查看详情

数据处理如何做到高性能低成本?

...界共同关注。未来,数据处理的最优解是什么?如何提升算力?本文从历史发展与未来趋势两个维度分析。作者|田玮靖    出品| 《新程序员》编辑部2003年,杨磊正使用C语言 查看详情

数据处理如何做到高性能低成本?

...界共同关注。未来,数据处理的最优解是什么?如何提升算力?本文从历史发展与未来趋势两个维度分析。作者|田玮靖    出品| 《新程序员》编辑部2003年,杨磊正使用C语言 查看详情

数据处理如何做到高性能低成本?

...界共同关注。未来,数据处理的最优解是什么?如何提升算力?本文从历史发展与未来趋势两个维度分析。作者|田玮靖    出品| 《新程序员》编辑部2003年,杨磊正使用C语言 查看详情

采用alluxio提升mrjob和sparkjob性能的注意点

...绍2.实验说明2.1实验环境2.2实验方法2.3实验负载3.MapReduceonalluxio3.1读取10G文件(1Gsplit)3.2读取20G文件(1Gsplit)3.3读取60G文件(1Gsplit)3.4读取60G文件(512MBsplit)4.SparkonAlluxio5.关于使用alluxio来提升性能的注意点5.1alluxio是否以memorysp... 查看详情

汽车行业:充分借力数据价值,推动数字化营销链路闭环

当下,汽车行业已慢慢由曾经的增量市场逐步转变为存量市场。更年轻的消费群体偏好、更精准智能的营销投放策略和强势入局的新能源汽车等因素都在推动着汽车行业的不断发展。对于汽车厂商和垂域媒体来说,进行... 查看详情

汽车行业:充分借力数据价值,推动数字化营销链路闭环

当下,汽车行业已慢慢由曾经的增量市场逐步转变为存量市场。更年轻的消费群体偏好、更精准智能的营销投放策略和强势入局的新能源汽车等因素都在推动着汽车行业的不断发展。对于汽车厂商和垂域媒体来说,进行... 查看详情

alluxio与北京大学计算机学院签署合作框架协议,推动产学研深度融合

此次Alluxio与北京大学计算机学院达成合作框架协议,双方将在学术研究、人才培养、联合实验室、开源社区共建等方面展开深入合作,并将成立“云原生数据编排服务系统联合实验室”。刘譞哲表示,数字经济时代&#... 查看详情

alluxio与北京大学计算机学院签署合作框架协议,推动产学研深度融合

此次Alluxio与北京大学计算机学院达成合作框架协议,双方将在学术研究、人才培养、联合实验室、开源社区共建等方面展开深入合作,并将成立“云原生数据编排服务系统联合实验室”。刘譞哲表示,数字经济时代&#... 查看详情

alluxio架构场景与部分配置参数详解(代码片段)

Alluxio架构、场景与部分配置参数Alluxio:架构及数据流-简书(jianshu.com)Alluxio-基于内存的虚拟分布式存储系统_机器爱上学习的博客-CSDN博客_alluxio1架构1.1概述​Alluxio作为大数据和机器学习生态系统中的一个新的数据访问层࿰... 查看详情

b站presto+alluxio:b站数据库系统性能提升实践

...一问题,B站做了诸多的实践探索,采用Presto搭配Alluxio的模式来提高系统性能,具体的探索内容将从以下4个维度进行分享:内容概览:B站离线集群架构>>B站SQLOnHadoop的架构,整体包含5个部分:最上... 查看详情

alluxio2022技术干货年终大赏

...很多嘉宾参与了我们的社区直播活动17场主题活动(AlluxioDay、Meetup、DatafunSummit等)44位嘉宾44个主题(来自一线大厂的实战者)2000+分钟的分享时长(内容涵盖【金融】【互联网&科技】【大数据】【通信... 查看详情

深入云原生ai:基于alluxio数据缓存的大规模深度学习训练性能优化(代码片段)

...里云高级技术专家)、顾荣(南京大学副研究员)导读:Alluxio项目诞生于UCBerkeleyAMP实验室,自开源以来经过7年的不断开发迭代,支撑大数据处理场景的数据统一管理和高效缓存功能日趋成熟。然而,随着云原生人工智能(CloudN... 查看详情

深入云原生ai:基于alluxio数据缓存的大规模深度学习训练性能优化(代码片段)

...里云高级技术专家)、顾荣(南京大学副研究员)导读:Alluxio项目诞生于UCBerkeleyAMP实验室,自开源以来经过7年的不断开发迭代,支撑大数据处理场景的数据统一管理和高效缓存功能日趋成熟。然而,随着云原生人工智能(CloudN... 查看详情

蚂蚁alluxio在蚂蚁集团大规模训练中的应用

...来自蚂蚁集团的开发工程师陈传迎老师,给大家分享Alluxio在蚂蚁集团是如何支持大规模模型训练的。首先是关于引入Alluxio的背景:为什么要引入Alluxio?Alluxio到底解决了什么问题?带着这些问题,我们快速get... 查看详情

新生代工程师手把手教你玩转alluxio+ml(上篇)

...动回顾越来越多的公司在其机器学习平台中运用开源系统Alluxio加速训练任务的数据读取。为了帮助用户在机器学习场景下熟悉和部署Alluxio集群,更快的进行性能测试、分析以及调优,我们邀请到Alluxio团队的核心开发工... 查看详情

性能提升40%,阿里云神龙大数据加速引擎获tpcx-bb世界排名第一

...加速引擎,针对大数据常用组件,如Spark、Hadoop、Alluxio等,结合阿里云神龙架构的特性,进行软硬一体化优化,形成独一无二的性能优势,最终,使复杂SQL查询场景性能相比社区版spark提升2-3倍,使用eRDM... 查看详情