alluxio增强spark和mapreduce存储能力

Hardy晗狄 Hardy晗狄     2022-08-24     755

关键词:

技术分享

Alluxio的前身为Tachyon。Alluxio是一个基于内存的分布式文件系统;Alluxio以内存为中心设计,他处在诸如Amazon S3、 Apache HDFS 或 OpenStack Swift存储系统和计算框架应用Apache Spark 或Hadoop MapReduce中间,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件。

技术分享

对上层应用来讲,Alluxio是一个管理数据访问和快速存储的中间层,对底层存储而言,Alluxio消除了大数据业务和存储系统依赖和鸿沟, 隐藏底层存储的差异,主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。Alluxio支持的后端存储包括GCS、S3、Swift、GlusterFS、HDFS、MapR-FS、 secure HDFS、AlibabaOSS和NFS。

Alluxio应用场景

通常,在大数据领域,最底层的是分布式文件系统,如Amazon S3、Apache HDFS等,而较高层的应用则是一些分布式计算框架,如Spark、MapReduce、Hbase、Flink等,这些分布式框架,往往都是直接从分布式文件系统中读写数据,效率比较低,性能消耗比较大。

技术分享

Alluxio居于传统大数据存储(如Amazon S3,Apache HDFS和OpenStack Swift等) 和大数据计算框架(如Spark,Hadoop Mapreduce)之间,为那些大数据应用提供一个数量级的加速,而且它只要提供通用的数据访问接口,就能很方便的切换底层分布式文件系统。

Alluxio的组件

Alluxiozh包括一个Master和多个workers,在逻辑上 Alluxio由master、workers和clients组成。通过master和workers一起协同工作来提供服务并有协同管理员来维护和管理,而clients一般面向的就是大数据应用程序,如Spark 或MapReduce任务,它是数据访问的发起者。通常情况,Alluxio用户只需要跟client 进行交互,clients为用户提供统一的文件存取服务接口。

Alluxio系统架构

与其他诸如HDFS、HBase、Spark等大数据相关框架一致,Alluxio的主节点为Master,Alluxio支持部署一个或两个Master节点,即单节点或HA模式。Master负责管理全局的文件系统元数据,比如文件系统树等,Clients跟Master交互获取元数据。而从节点Worker负责管理本节点数据存储资源,这些资源包括本地Memory、SSD或HDD。

技术分享

当HDFS、HBase、Spark等应用程序需要访问Alluxio时,通过客户端先与主节点Master通讯,然后再和对应Worker节点通讯,进行实际的文件存取操作。所有的Worker会周期性地发送心跳给Master,维护文件系统元数据信息和确保自己被Master感知到,并在集群中正常提供服务。与HDFS、HBase等分布式系统设计模式是一致,Master不会主动发起与其他组件的通信,它只是以回复请求的方式与其他组件进行通信,减少Master的工作负载。

Alluxio的生态

利用Alluxio将NAS设备接入Hadoop生态链,Dell EMC就ECS产品签订了合作协议,华为、HDS、HPE和NetApp也跟Alluxio有类似合作;通过一个中间层,能够让Hadoop、Spark、Storm、samza等选择访问任何一种后端存储数据源,如 9000,AWS S3、HDFS、Ceph、Isilon、Gluster等。搜索“ICT_Architect”加入微信公众号“架构师技术联盟”获取更多精彩内容。

Apache Spark 与 MapReduce

】ApacheSpark与MapReduce【英文标题】:ApacheSparkvs.MapReduce【发布时间】:2018-05-0123:04:02【问题描述】:我一直在查找Spark和MapReduce之间的区别,我真正发现的是Spark在内存和磁盘上运行,这大大加快了速度。我还读到MapReduce更适合非... 查看详情

mapreduce和spark的shuffle过程详解

...答案。参考:https://blog.csdn.net/u010697988/article/details/70173104mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实效性,下面主要介绍mapReducehe和Spark两者的shuffle过程。MapReduce的Shuffle过程MapReduce计算模型一般包括... 查看详情

mapreduce split 和 spark 分区的区别

】mapreducesplit和spark分区的区别【英文标题】:Differencebetweenmapreducesplitandsparkparitition【发布时间】:2016-09-2302:53:46【问题描述】:我想问一下在使用Hadoop/MapReduce和Spark时数据分区有什么显着差异?他们都在HDFS(TextInputFormat)上工作... 查看详情

spark和mapreduce相比,有哪些优势?

参考技术A在实际应用中,由于MapReduce在大量数据处理时存在高延迟的问题,导致Hadoop无力处理很多对时间有要求的场景,越来越多的公司开始采用Spark作为与计算大数据的核心技术。Spark和MapReduce相比,都有哪些优势?一个最明... 查看详情

mapreduce和spark的原理及区别

Mapreduce和spark是数据处理层两大核心,了解和学习大数据必须要重点掌握的环节,根据自己的经验和大家做一下知识的分享。650)this.width=650;"src="http://s5.51cto.com/wyfs02/M00/8B/2B/wKioL1hGbEiSjW3wAAEP-Bn8CcE114.jpg-wh_500x0-wm_3-wmp_4-s_2651010867.jpg"ti 查看详情

spark相对于mapreduce的优势

MapReduce存在的问题1.MapReduce框架局限性  1)仅支持Map和Reduce两种操作  2)处理效率低效。    a)Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据;任务调度和启动开销大;    b)无法充分利用内存   ... 查看详情

tachyon与ignite系统对比(代码片段)

...有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。Tachyon诞生于UCBerkeley的AMPLab,由该实验室的李浩源初创。2012年12月,Tachyon发布了第一个版本0.1.0。目前,Al... 查看详情

spark-01spark简介

...park简介    spark是个计算框架,不存东西。MapReduce是Hadoop里面做计算的,也不存东西,出现比spark早,自从spark活跃起来后mc的很多程序就被重写为spark程序了。spark的api使用起来也比较简单。  spark起源于2009年加... 查看详情

alluxio2.9新版发布|重塑架构,支持大规模多租户环境

/Alluxio宣布正式发布数据编排平台2.9版本/Alluxio2.9版本的主要新增功能包括:新增跨环境集群同步功能、增强Alluxio在Kubernetes上的可管理性、提高S3API安全性和用户体验2022年11月17日,全球首创的开源数据编排软件开发商Allu... 查看详情

不同的瑞士军刀:对比spark和mapreduce

...ache基金会下的Spark再次引爆了大数据的话题。带着比HadoopMapReduce速度要快100倍的承诺以及更加灵活方便的API,一些人认为这或许预示着HadoopMapReduce的终结。  作为一个开源的数据处理框架,Spark是如何做到如此迅速地处理数 查看详情

认识一下mrs里的“中间人”alluxio

摘要:Alluxio在mrs的数据处理生态中处于计算和存储之间,为上层spark、presto、mapredue、hive计算框架提供了数据抽象层,计算框架可以通过统一的客户端api和全局命名空间访问底层的存储系统,并切提供内存级的I/O... 查看详情

如何在 Spark 中使用 MapReduce 查找集合中的所有两对集合和元素?

】如何在Spark中使用MapReduce查找集合中的所有两对集合和元素?【英文标题】:HowtofindalltwopairsofsetsandelementsinacollectionusingMapReduceinSpark?【发布时间】:2018-06-3020:22:53【问题描述】:我有一组集合,每个集合包含许多项目。我想使... 查看详情

spark概述和安装部署

...据的计算,没有涉及到数据的存储。2、为什么学习spark比mapreduce计算速度快很多。3、spark特点1、速度快比mapreduce在内存中快100x,在磁盘中快10x1、由于mapreduce每次job的中间结果数据都会落地到磁盘中,而spark每次中间结果数据可... 查看详情

tachyon与ignite系统对比(代码片段)

...有高性能和容错能力,能够为集群框架(如Spark、MapReduce)提供可靠的内存级速度的文件共享服务。Tachyon诞生于UCBerkeley 查看详情

我们如何利用 mapreduce 或 spark 解决二和算法作为大数据问题?

】我们如何利用mapreduce或spark解决二和算法作为大数据问题?【英文标题】:Howcanwesolveatwo-sumalgorithmasabigdataproblemleveragingmapreduceorspark?【发布时间】:2021-01-1116:38:12【问题描述】:假设数字列表/数组存在于一个非常大的数据文件... 查看详情

spark学习之路spark初识[转]

...型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce... 查看详情

hadoop和spark的区别

...hadoop在分布式计算的底层思路上,其实是极为相似的,即mapreduce分布式运算模型:将运算分成两个阶段,阶段1-map,负责从上游拉取数据后各自运算,然后将运算结果shuffle给下游的reduce,reduce再各自对通过shuffle读取来的数据进... 查看详情

大数据中的spark指的是啥?

Spark是一种通用的大数据计算框架,和传统的大数据技术MapReduce有本质区别。前者是基于内存并行计算的框架,而mapreduce侧重磁盘计算。Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架,用于构建大型的、低延... 查看详情