大数据技术hadoop——yarn

阳哥赚钱很牛 阳哥赚钱很牛     2022-12-21     332

关键词:

YARN是Hadoop中的分布式资源调度系统,在Hadoop2.x版本才引入的概念。

一、概述

        Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式(不止管自己计算机的调度,还可以管理其他的计算机调度问题)的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序。

二、YARN的基本架构

YARN主要由ResourceManagerNodeManagerApplicationMasterContainer等组件构成

 三、YARN的工作机制

      程序运行完毕后,MR会向RM注销自己。

四、YARN的重要概念

1Yarn并不清楚用户提交的程序的底层运行机制,具体的由Application Master去做

2Yarn只提供运算资源的调度(用户程序向Yarn申请资源,Yarn就负责分配资源)

3Yarn中的主管角色ResourceManager

4Yarn中具体提供运算资源的角色NodeManager

5)这样一来,Yarn其实就与运行的用户程序完全解耦,就意味着Yarn上可以运行各种类型的分布式运算程序(mapreduce只是其中的一种),比如mapreducestorm程序,spark程序……

6)所以,sparkstorm等运算框架都可以整合在Yarn上运行,只要他们各自的框架中有符合Yarn规范的资源请求机制即可。

7Yarn就成为一个通用的资源调度平台,从此,企业中以前存在的各种运算集群都可以整合在一个物理集群上,提高资源利用率,方便数据共享。

 五、YRAN中的资源调度器

        Hadoop作业调度器主要有三种:FIFOCapacity SchedulerFair SchedulerHadoop2.7.2默认的资源调度器是Capacity Scheduler

 1、先进先出调度器(FIFO)

         其服务器节点资源处在队列中,先进先出,谁先来的谁先运行,在运行过程中,会把所有YARN资源占据。其中job里的所有的MapTask、ReduceTask都需要一个一个的排队等待执行。

 2、容量调度器(Capacity Scheduler)

 如上图,把整个YARN资源分成三部分,这样同时可以执行三个job

 3、公平调度器(Fair Scheduler

         雨露均沾,其中job的优先级通过差额进行计算,服务器中资源少的时候不建议用这个调度方法。

hadoop大数据技术yarn案例实操(代码片段)

Yarn案例实操1.Yarn生产环境核心参数配置案例2.容量调度器多队列提交案例2.1需求2.2配置多队列的容量调度器2.3向Hive队列提交任务2.4任务优先级3.公平调度器案例3.1需求3.2配置多队列的公平调度器3.3测试提交任务4.Yarn的Tool接口案... 查看详情

大数据技术之hadoop(yarn)资源调度器案例实操(代码片段)

文章目录1Yarn资源调度器1.1Yarn基础架构1.2Yarn工作机制1.3作业提交全过程1.4Yarn调度器和调度算法1.4.1先进先出调度器(FIFO)1.4.2容量调度器(CapacityScheduler)1.4.3公平调度器(FairScheduler)1.5Yarn常用命令1.5.1yar... 查看详情

一文带你了解大数据技术之hadoop(代码片段)

...概述5.3MapReduce架构概述5.4HDFS、YARN、MapReduce三者关系6.大数据技术生态体系7.推荐系统框架 查看详情

hadoop——hadoop优势组成大数据技术生态体系系统框架图

...述1.5.3MapReduce架构概述1.5.4HDFS、YARN、MapReduce三者关系1.6大数据技术生态体系1.7推荐系统框架图1.4Hadoop优势(4高)1)高可靠性 查看详情

大数据技术之hadoop(入门)概述运行环境搭建运行模式(代码片段)

...1.3.3MapReduce架构概述1.3.4HDFS、YARN、MapReduce三者关系1.3.5大数据技术生态体系1.3.6推荐系统框架图2Hadoop运行环境搭建(开发重点)2. 查看详情

hadoop大数据技术课程总结2021-2022学年第1学期(代码片段)

文章目录Hadoop大数据技术课程总结1.大数据概述1.1大数据时代的4V1.2大数据时代的三次浪潮1.3大数据时代的技术支撑1.4谷歌的3篇论文1.5Hadoop集群规模1.6Hadoop安装过程2.HDFS专题2.1HDFS简介及作用2.2HDFS架构2.3HDFS服务角色2.4HDFS如何读取... 查看详情

linux企业运维——hadoop大数据平台(上)hadoop工作原理部署资源管理器yarn(代码片段)

Linux企业运维——Hadoop大数据平台(上)Hadoop工作原理、部署、资源管理器Yarn文章目录Linux企业运维——Hadoop大数据平台(上)Hadoop工作原理、部署、资源管理器Yarn一、Hadoop简介1.1、Hadoop框架与模块1.2、Hadoop工作... 查看详情

大数据hadoop|mapredece|yarn(代码片段)

文章目录大数据时代HadoopHadoop概述Hadoop特性优点Hadoop国内外应用Hadoop发行版本Hadoop集群整体概述HDFS分布式文件系统传统常见的文件系统数据和元数据HDFS核心属性HDFS简介HDFSshell操作MapReduce分而治之理解MapReduce思想分布式计算概念... 查看详情

hadoop技术篇yarn作业执行流程

...我是淼淼_喵,很高兴认识大家~✨主攻领域:【大数据开发】【数据仓库】【ETL】【数据分析】【面试分析】🎉点赞➕评论➕收藏==养成习惯(一键三连)😋🎉欢迎关注Ὁ 查看详情

大数据hadoop生态体系之yarn配置和使用(13)

参考技术A一、YARN框架简介YARN:YetAnotherResourceNegotiator通用的资源管理系统。为上一层的mapreduce,spark等任务服务提供统一的资源管理和调度。YARN是一个资源管理、任务调度的框架,主要包含三大模块:ResourceManager(RM)、NodeManag... 查看详情

linux企业运维——hadoop大数据平台(下)hdfs高可用yarn高可用hbase高可用(代码片段)

Linux企业运维——Hadoop大数据平台(下)hdfs高可用、Yarn高可用、hbase高可用文章目录Linux企业运维——Hadoop大数据平台(下)hdfs高可用、Yarn高可用、hbase高可用一、Hadoop高可用1.1、zoomkeeper集群部署1.2、hdfs高可用1.... 查看详情

我眼中的大数据——yarn和hive(代码片段)

CSDN话题挑战赛第2期参赛话题:大数据技术分享一、YarnHadoop主要是由三部分组成,除了前面我讲过的分布式文件系统HDFS、分布式计算框架MapReduce,还有一个是分布式集群资源调度框架Yarn。但是Yarn并不是随Hadoop的推出... 查看详情

尚硅谷大数据技术hadoop教程-笔记06hadoop-生产调优手册(代码片段)

视频地址:尚硅谷大数据Hadoop教程(Hadoop3.x安装搭建到集群调优)尚硅谷大数据技术Hadoop教程-笔记01【大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】尚硅... 查看详情

linux企业运维——hadoop大数据平台(上)hadoop工作原理部署资源管理器yarn(代码片段)

Linux企业运维——Hadoop大数据平台(上)Hadoop工作原理、部署、资源管理器Yarn文章目录Linux企业运维——Hadoop大数据平台(上)Hadoop工作原理、部署、资源管理器Yarn一、Hadoop简介1.1、Hadoop框架与模块1.2、Hadoop工作... 查看详情

hadoop大数据平台(代码片段)

...doop的演变2hadoop的简介3工作原理Nn和Dn节点故障/网络故障/数据块损坏RM:resourcemanager二.hadoop工作模式1伪分布式2完全分布式三.yarn调度四.hadoop高可用1zookeeper集群2hdfs高可用3yarn高可用4hbase高可用操作参考手册:https://hadoop.apache.o... 查看详情

hadoop大数据平台(代码片段)

...doop的演变2hadoop的简介3工作原理Nn和Dn节点故障/网络故障/数据块损坏RM:resourcemanager二.hadoop工作模式1伪分布式2完全分布式三.yarn调度四.hadoop高可用1zookeeper集群2hdfs高可用3yarn高可用4hbase高可用操作参考手册:https://hadoop.apache.o... 查看详情

hadoop之yarn调度

序言   在大数据的生态中,hdfs解决了海量数据的存储问题,mapreduce解决了海量数据的计算问题,而在任务的执行和资源统一管理层面,则是使用yarn进行统一调度。  yarn:yetanotherresoucenegotiator,另外一... 查看详情

大数据学习之mapreduce基础与yarn集群安装09

1大数据解决的问题? 海量数据的存储:hadoop->分布式文件系统HDFS海量数据的计算:hadoop->分布式计算框架MapReduce 2什么是MapReduce? 分布式程序的编程框架,java->sshssm,目的:简化开发!是基于hadoop的数据分析应... 查看详情