cdh集群spark-shell执行过程分析

格格巫MMQ!! 格格巫MMQ!!     2022-11-30     608

关键词:

目的
刚入门spark,安装的是CDH的版本,版本号spark-core_2.11-2.4.0-cdh6.2.1,部署了cdh客户端(非集群节点),本文主要以spark-shell为例子,对在cdh客户端上提交spark作业原理进行简单分析,加深理解

spark-shell执行
启动spark-shell后,可以发下yarn集群上启动了一个作业,实际上,cdh-spark默认提交作业模式为yarn-client模式,即在本地运行Driver,作业在yarn集群上执行

spark-shell启动过程分析
查看spark-shell路径及内容,$LIB_DIR值为/opt/cloudera/parcels/CDH/lib,所以执行的是/opt/cloudera/parcels/CDH/lib/spark/bin/spark-shell

继续查看/opt/cloudera/parcels/CDH/lib/spark/bin/spark-shell,脚本关键的内容如下:

#!/usr/bin/env bash
if [ -z "

多节点火花集群上的 spark-shell 无法在远程工作节点上旋转执行程序

】多节点火花集群上的spark-shell无法在远程工作节点上旋转执行程序【英文标题】:spark-shellonmultinodesparkclusterfailstosponexecutoronremoteworkernode【发布时间】:2017-08-0110:50:25【问题描述】:在独立模式下安装了spark集群,第一个节点上... 查看详情

cdh集群升级python3异常问题分析

...​提示:代码块部分可以左右滑动查看噢1.环境说明在CDH集群中所有节点/opt/cloudera/anaconda3部署了Python3的安装包,如下描述:[root@cdh02~]#/opt/cloud 查看详情

1000+节点的cdh集群主服务迁移全过程

一. 迁移背景:  由于种种原因,线上cdh集群的管理服务ClouderaManager所在主机不能正常使用,ClouderaManager相关的服务需要迁移到新的主机运行,且生产迁移不能影响任何生产环境的使用。 二.迁移准备  本次... 查看详情

cdh集群安装(入门)

cdh集群安装1、 配置主机vim/etc/hosts  (hadoop1,hadoop2,hadoop3)代表在3台机器执行操作192.168.157.128hadoop1192.168.157.129hadoop2192.168.157.130hadoop32、 关闭防火墙(所有机器)chkconfigiptablesoff3、 ssh免密码登录(hadoop1执行)ssh-keygen-tr 查看详情

1000+节点的cdh集群主服务迁移全过程(代码片段)

一. 迁移背景:  由于种种原因,线上cdh集群的管理服务ClouderaManager所在主机不能正常使用,ClouderaManager相关的服务需要迁移到新的主机运行,且生产迁移不能影响任何生产环境的使用。 二.迁移准备  本次迁... 查看详情

从spark-shell到sparkcontext的函数调用路径过程分析(源码)

    不急,循序渐进,先打好基础   Sparkshell的原理  首先,我们清晰定位找到这几个。 1、spark-shell  2、spark-submit  3、spark-class    4、SparkSubmit.scala    查看详情

那些安装cdh集群过程中踩过的坑......(比较全)

一、登录ClouderaManager(http://192.168.201.128:7180/cmf/login)时,无法访问web页面针对此问题网上有较多的解决方案(e.g.https://www.cnblogs.com/zlslch/p/7078119.html),如果还不能解决你的问题,请看下面的解决方案。登录MySQL数据库... 查看详情

cdh集群定期清理指南

1、清除hdfs回收站CDH集群定期清理指南2、清空spark任务执行历史记录hadoopfs-ls/user/spark/applicationHistory清掉后再把回收站清理一下3、clouderamanager清理装cm的机器:/var/lib路径下有如下文件:CDH集群定期清理指南主要清理cloudera-host-moni... 查看详情

cdh大数据集群安全风险汇总

一,风险分为内部和外部首先内部:CDH大数据集群部署过程中会自动创建以服务命名的用户,如图所示用户名(login_name):口令位置(passwd):用户标识号(UID):用户组标识号(GID):注释性描述(users):主目录(home_directory):登陆shell(Shel... 查看详情

cdh集群安装(入门)

cdh集群安装1、 配置主机vim/etc/hosts  (hadoop1,hadoop2,hadoop3)代表在3台机器执行操作192.168.157.128hadoop1192.168.157.129hadoop2192.168.157.130hadoop32、 关闭防火墙(所有机器)chkconfigiptablesoff3、 ssh免密码登录(hadoop1执行)ssh-keygen-trsacat~/.ssh/id_rsa.pu... 查看详情

原cdh或hdp集群到达最新版本cdp的三条路径

...合:新的数据和工作负载云就绪的数据弹性工作负载小型集群,运营开销高过程:设置公共云环境→注册经典集群→识别候选的工作负载→使用ReplicationManager迁移工作负载数据和元数据(“突发到云”)→测试并推广到生产迁移... 查看详情

《elasticsearch源码解析与优化实战》第14章:cluster模块分析(代码片段)

文章目录集群状态内部封装和实现MasterServiceClusterApplierService线程池提交集群任务内部模块如何提交任务任务提交过程实现集群任务的执行过程集群状态的发布过程增量发布的实现原理二段提交总流程发布过程提交过程异常处理.... 查看详情

《elasticsearch源码解析与优化实战》第14章:cluster模块分析(代码片段)

文章目录集群状态内部封装和实现MasterServiceClusterApplierService线程池提交集群任务内部模块如何提交任务任务提交过程实现集群任务的执行过程集群状态的发布过程增量发布的实现原理二段提交总流程发布过程提交过程异常处理.... 查看详情

1000+节点的cdh集群主服务迁移全过程(代码片段)

一. 迁移背景:  由于种种原因,线上cdh集群的管理服务ClouderaManager所在主机不能正常使用,ClouderaManager相关的服务需要迁移到新的主机运行,且生产迁移不能影响任何生产环境的使用。 二.迁移准备  本次迁... 查看详情

cdh集群-无法找到主机的ntp服务或该服务未响应时钟偏差请求

参考技术A问题:部分主机宕机后,CDH集群启动成功,但是有某些主机提示“无法找到主机的NTP服务,或该服务未响应时钟偏差请求”解决步骤:1.先同步服务器时钟执行命令:servicentpdstop 停止ntp服务ntpdate 主机ip  ... 查看详情

cdh构建大数据平台-集群配置优化实战之hdfs集群调优

...meNode有一个工作线程池用来处理客户端的远程过程调用及集群守护进程的调用,处理程序数量越多意味着要更大的池来处理来自不同DataNode的并发心跳以及客户端并发的元数据操作)。 查看详情

cdh集群离线部署(代码片段)

CDH集群离线部署(CM6.3.1+CDH6.3.2+CentOS7)_小宇0926的博客-CSDN博客_cdh集群大数据之CDH(web页面部署Hadoop)_leon.yan1994的博客CDH集群部署最佳实践-知乎(zhihu.com)CDH6.3.1集群离线部署-掘金(juejin.cn)基于阿里云的CDH集群安装_Frank__... 查看详情

cdh6.0.1集群搭建「process」(代码片段)

...及注意事项 Step1:配置域名相关,因为只有三台机器组集群,所以直接使用了hosts的方法:修改主机名hostnamectlset-hostnameryze-1.bigdata.com然后在/etc/hosts文件中配置相关机器的域名和域名简写x.x.x.xryze-1.bigdata.comryze-1x 查看详情