正文

大数据问题排查系列-sparkstandaloneha模式的一个缺陷点与应对方案(代码片段)

michaelli916  michaelli916  2022-12-23  792

关键词：

大数据问题排查系列 - SPARK STANDALONE HA 模式的一个缺陷点与应对方案

前言

大家好，我是明哥！

作为当今离线批处理模式的扛把子，SPARK 在绝大多数公司的数据处理平台中都是不可或缺的。而在底层使用的具体资源管理器上，SPARK 支持四种模式：

standalone
yarn
mesos
kubernetes

四种模式的简单对比如下图：

以上四种模式中，mesos 在业界使用的最少，其次是 standalone 模式，再次是 yarn 模式。不过随着大数据与云计算日益融合的趋势，现在也有不少场景在使用 kubernetes 替代 yarn 和 standalone 模式。

关于大数据的发展趋势，尤其是大数据与云计算日益融合的趋势，大家可参考笔者以往两篇文章：

从技术视角看大数据行业的发展趋势
 大数据与云计算深度融合的趋势体现在哪些方面?

本文讲述，spark standalone部署模式下，HA 高可用部署的一个缺陷点和对应的解决办法。

以下是正文。

SPARK STADNALONE HA 模式的确切含义是什么？

我们知道，spark 在 standalone 部署模式下，有多个 worker 节点负责具体任务的执行，spark 框架帮我们解决了作业底层各个 stage 以及各个 stage 中各个 task 任务执行失败时的容错，spark框架也帮我们解决了各个 worker 节点宕机情况下的容错；但是整个 spark 集群是只有一个 master 节点负责接收用户提交的作业的，该 master 节点是有单点故障即 SPOF(single point of failure)的。

为了应对 master 节点的 spof, 我们可以做 master 节点的 HA 高可用：即部署多个 master 节点，并通过选举确保同一时间只有一个 active 的 master 对外提供服务，当该 active master 节点意外宕机时，原先 standby 的 master 节点会自动检测到这种异常情况并被选举成为新的 active master，从而对外提供服务（接受 worker 注册，接受作业提交）；同时原先已经注册到集群中的 workers，以及原先已经提交的作业，会自动注册到该新的 master 上，即不丢失状态。

如何配置和使用 STANDALONE HA 模式下的 SPARK 集群？

有两种方法，配置都很简单:

一是配置 spark-defaults.conf,示例如下：
- spark.master spark://node1:7077,node2:7077
- spark.deploy.recoveryMode ZOOKEEPER
- spark.deploy.zookeeper.url node1:2181,node2:2181,node3:2181
- spark.deploy.zookeeper.dir /spark24-ha
二是配置spark-env.sh，示例如下：

当然，客户端在使用 HA 模式的 SPARK STANDALONE 集群时，需要将 spark.master 配置为以下方式，才会轮询检查可用的 spark master:

spark.master spark://node1:7077,node2:7077

问题现象 - SPARK STANDALONE HA 模式的一个缺陷

笔者在线上使用过程中，发现了 SPARK STANDALONE HA 模式的一个缺陷点，或者说做的不完善的地方：
某客户环境的 spark standalone 部署模式，通过 zk 配置了ha 高可用后，发现 active spark master 经常挂掉，且 standby spark master 经过选举成为 active spark master 后也经常挂掉。

经过 google 搜索，发现有一个相关的 jira 是关于这个的：

Bouncing Zookeeper node causes Active spark master to exit

问题原因

Active 与 standby 的 spark master 在底层都会跟 zk 建立两个 session 链接，一个是跟 zk leader node 的 session 链接，还有一个是跟任一 zk node 的 session 链接。
一旦 active spark master 底层跟 zk 的 session 链接断开，不管该 session 链接底层的 zk 是 leader 还是follower，原 active 状态的 spark master 的 leader 角色都会被剥夺，然后该 spark master 进程会自动退出。
同时原 standby 状态的 spark master 会成功切换为active状态，并自动接受已提交运行的application 的重新注册（当然，这些 application 需要配置多个 spark master 的轮询，如：spark://node1:7077,node2:7077）。
其实，以上现象说白了，是 active spark master 在因底层 zk 不稳定或其他原因造成 session 链接断开时，会被剥夺 leader 角色，这点没什么问题；但随后 spark 直接将被剥夺了 leader 角色的 master 进程直接退出了，这点就有点简单粗暴了。相关源码如下：

问题解决

可以从两个方面着手，解决该问题：

spark master 进程异常退出的根本原因是，底层的 zk 负载过大不稳定造成 spark 跟 zk 的 session 连接经常断开，（在 spark, kafka, 微服务等服务都使用同一个 zk 集群时，经常会出现该问题）。所以从根本上解决问题，需要从 zk 的稳定上做文章，可以配置 spark 单独使用一个独立的 zk 集群（由于 spark 对 zk 的压力不大，对 zk 的性能要求也不是很高，所以该 zk 集群可以跟 spark 集群混部）；
active spark master 在因底层 zk session 链接断掉失去 leader 角色后会自动退出，所以为确保 HA 效果，我们可以再次启动该 spark master 服务，以确保集群中有至少两个 spark master。具体实现方式上，可以通过监控脚本或 haproxy 等工具，自动检测 spark master 进程并在该进程异常推出后，自动再次启动该进程（其实底层只需执行 sh $SPARK_HOME/sbin/start-master.sh即可）

相关日志

当 zk 的 leader 节点重启时，原先 active 状态的 spark master 节点日志如下：

21/08/18 18:43:15 INFO zookeeper.ClientCnxn: Unable to read additional data from server sessionid 0x27a687ab09da9f8, likely server has closed socket, closing socket connection and attempting reconnect
21/08/18 18:43:15 INFO state.ConnectionStateManager: State change: SUSPENDED
21/08/18 18:43:15 INFO state.ConnectionStateManager: State change: SUSPENDED
21/08/18 18:43:15 INFO master.ZooKeeperLeaderElectionAgent: We have lost leadership
21/08/18 18:43:15 ERROR master.Master: Leadership has been revoked -- master shutting down.

当 zk 的 follower 节点重启时，原先 active 状态的 spark master 节点日志如下：

21/08/18 22:51:46 WARN zookeeper.ClientCnxn: Session 0x17b58dbaaf60171 for server node1/10.20.39.41:2181, unexpected error, closing socket connection and attempting reconnect
java.io.IOException: Connection reset by peer
        at sun.nio.ch.FileDispatcherImpl.read0(Native Method)
        at sun.nio.ch.SocketDispatcher.read(SocketDispatcher.java:39)
        at sun.nio.ch.IOUtil.readIntoNativeBuffer(IOUtil.java:223)
        at sun.nio.ch.IOUtil.read(IOUtil.java:192)
        at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:380)
        at org.apache.zookeeper.ClientCnxnSocketNIO.doIO(ClientCnxnSocketNIO.java:68)
        at org.apache.zookeeper.ClientCnxnSocketNIO.doTransport(ClientCnxnSocketNIO.java:366)
        at org.apache.zookeeper.ClientCnxn$SendThread.run(ClientCnxn.java:1081)
21/08/18 22:51:46 INFO state.ConnectionStateManager: State change: SUSPENDED
21/08/18 22:51:46 INFO master.ZooKeeperLeaderElectionAgent: We have lost leadership
21/08/18 22:51:46 ERROR master.Master: Leadership has been revoked -- master shutting down.

当 zk 的 leader 节点重启时，原先 standby 状态的 spark master 节点日志如下:

21/08/18 18:43:18 INFO zookeeper.ClientCnxn: Socket connection established to node3/10.20.39.43:2181, initiating session
21/08/18 18:43:18 INFO zookeeper.ClientCnxn: Session establishment complete on server node3/10.20.39.43:2181, sessionid = 0x37a687ab25aa91d, negotiated timeout = 60000
21/08/18 18:43:18 INFO state.ConnectionStateManager: State change: RECONNECTED
21/08/18 18:44:18 INFO master.ZooKeeperLeaderElectionAgent: We have gained leadership
21/08/18 18:44:18 INFO master.Master: I have been elected leader! New state: RECOVERING
21/08/18 18:44:18 INFO master.Master: Trying to recover worker: worker-20210818182026-10.20.39.42-46483
21/08/18 18:44:18 INFO master.Master: Trying to recover worker: worker-20210818182026-10.20.39.43-37230
21/08/18 18:44:18 INFO client.TransportClientFactory: Successfully created connection to /10.20.39.42:46483 after 6 ms (0 ms spent in bootstraps)
21/08/18 18:44:18 INFO client.TransportClientFactory: Successfully created connection to /10.20.39.43:37230 after 6 ms (0 ms spent in bootstraps)
21/08/18 18:44:18 INFO master.Master: Worker has been re-registered: worker-20210818182026-10.20.39.42-46483
21/08/18 18:44:18 INFO master.Master: Worker has been re-registered: worker-20210818182026-10.20.39.43-37230
21/08/18 18:44:18 INFO master.Master: Recovery complete - resuming operations!

！关注不迷路~ 各种福利、资源定期分享！欢迎有想法、乐于分享的小伙伴们, 扫码关注公众号，后台留言，加群交流学习（微信群：ABC技术交流 (AI+BigData+Cloud)）。

大数据问题排查系列-hive踩坑记

前言大家好，我是明哥！本片博文是“大数据线上问题排查系列”大类别之一，讲述前段时间我司某产品在某券商遇到的一个问题及解决方案，其背后涉及到hive的一个BUG,在hive3.0才修复。以下是正文。问题现象cdh6... 查看详情

大数据线上问题排查系列-hive踩坑记(代码片段)

大数据线上问题排查系列-HIVE踩坑记前言大家好，我是明哥！本片博文是“大数据线上问题排查系列”大类别之一，讲述前段时间我司某产品在某券商遇到的一个问题及解决方案，其背后涉及到hive的一个BUG,在hive3.... 查看详情

大数据问题排查系列-因hive中元数据与hdfs中实际的数据不一致引起的问题的修复(代码片段)

大数据问题排查系列-因HIVE中元数据与HDFS中实际的数据不一致引起的问题的修复前言大家好，我是明哥！本片博文是“大数据问题排查系列”之一，讲述某HIVESQL作业因为HIVE中的元数据与HDFS中实际的数据不一致引起的... 查看详情

大数据问题排查系列-tdh大数据平台中hive作业长时间无法执行结束

前言大家好，我是明哥！本片博文是“大数据问题排查系列”之一，讲述某星环TDH大数据平台中，研发同学提交的Hive作业在成功提交后，客户端长时间收不到任何结果信息也收不到任何报错信息问题的排查。... 查看详情

大数据问题排查系列-hdfsfilesystemapi的正确打开方式，你get了吗？(代码片段)

大数据问题排查系列-HDFSFileSystemAPI的正确打开方式，你GET了吗？前言大家好，我是明哥！本片博文是“大数据问题排查系列”之一，我们首先会聊聊一个问题的现象原因和解决方法，然后给出HDFSFileSystemAPI... 查看详情

大数据问题排查系列-开启kerberos后无法访问hiveserver2等服务的webui

大数据问题排查系列-开启kerberos后无法访问HIVESERVER2等服务的WEBUI1前言大家好，我是明哥！在博文“从技术视角看大数据行业的发展趋势”中，我们提到大数据的一个发展趋势是日益重视数据安全。在数据安全上，... 查看详情

大数据问题排查系列-sparkstandaloneha模式的一个缺陷点与应对方案(代码片段)

大数据问题排查系列-SPARKSTANDALONEHA模式的一个缺陷点与应对方案前言大家好，我是明哥！作为当今离线批处理模式的扛把子，SPARK在绝大多数公司的数据处理平台中都是不可或缺的。而在底层使用的具体资源管理器上&... 查看详情

大数据问题排查系列-同样的hivesql，在cdh与tdh平台执行效率差异的根本原因

前言大家好，我是明哥！公众号已经运维有一段时间了，也写了不少博文，其中很多是从自己解决真实线上问题的实战经历出发，写的经验总结和IT感悟。但由于前期摸索过程中，文风不统一且排版不太好&... 查看详情

大数据：sparkstandalone集群调度如何创建分配executors的资源

Standalone的整体架构在Spark集群中的3个角色Client,Master,Worker,下面的图是ClientSubmit一个任务的流程图：完整的流程：Driver提交任务给Master,由Master节点根据任务的参数对进行Worker的Executor的分配，Worker节点获取到具体的分... 查看详情

大数据：sparkstandalone集群调度多master节点的可用性

1.Master单节点可用性Master节点在Spark中所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Application的状态。在Spark中，Master本身也提供了基于硬盘的单节点的可用性，也就是可以直接通过重启Master&... 查看详情

大数据：sparkstandalone集群调度从远程调试开始说application创建

远程debug，特别是在集群方式时候，会很方便了解代码的运行方式，这也是码农比较喜欢的方式虽然scala的语法和java不一样，但是scala是运行在JVM虚拟机上的，也就是scala最后编译成字节码运行在JVM上，那么... 查看详情

大数据情况下如何排查代码

】大数据情况下如何排查代码【英文标题】：Howtotroubleshootcodeinthecaseofbigdata【发布时间】：2014-07-0607:36:15【问题描述】：我正在尝试实现一个表的thispythonsolutiontocountthenumberoflineswithidenticalcontentinthefirstfewcolumns。这是我的代码：#co... 查看详情

kubernetes应用问题的通用排查思路-大数据从业者之kubernetes必知必会

...，大家共勉！1技术趋势大背景我们知道，大数据进一步发展的一个趋势，就是大数据和云计算进一步融合（包括在底层更加青睐存储计查看详情

直播疑难杂症排查（10）—直播功耗高

...我们首先要分析下，哪些因素会导致CPU/GPU占用率高。2.1数据量太大直播主要由：视频采集->视频处理（剪裁、美颜、滤镜）->编码->推流这些环节组成。在这查看详情

mysqlmediumtext大字段存储错误问题排查(代码片段)

...1a;由于日志查询问题，没看到日志之前怀疑：MYSQL数据库字段长度是否真的足够，排查问题未果。2：步骤一未果，看日志了解错误信息如下Name":"com.javartisan.audience_management.jsf_service.service.AudienceServ 查看详情

第25天sql进阶-查询优化-performance_schema系列实战二：锁问题排查（全局读锁）（sql小虚竹)

...什么时候适合加全局锁三、实战演练3.1数据准备（如果已有数据可跳过此操作）3.2开启第一个会话，执行全局读锁3.3开启第二个会话,修改表数据3.4开启第三个会话，进行排查... 查看详情

实操|hive数据倾斜问题定位排查及解决(代码片段)

Hive数据倾斜怎么发现，怎么定位，怎么解决多数介绍数据倾斜的文章都是以大篇幅的理论为主，并没有给出具体的数据倾斜案例。当工作中遇到了倾斜问题，这些理论很难直接应用，导致我们面对倾斜时还是... 查看详情

《直播疑难杂症排查系列》之一：播放失败

...花屏、绿屏播放杂音、噪音、回声点播拖动不准直播发热问题其他问题（待续）第一篇文章我们从播放开始，因为观看直播最重要的一个环节就是打开播放器，很多问题的直接反馈也是来自观众端。导致播放失败的原因有很多种... 查看详情