基于docker部署spark和minioserver

author author     2023-05-04     197

关键词:

参考技术A 使用Docker搭建Spark集群和MinIO云存储服务,并通过Spark访问MinIO,实现读写功能。

MinIO 是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。

MinIO是一个非常轻量的服务,可以很简单的和其他应用的结合,类似 NodeJS, Redis 或者 MySQL。
详细资料参考 这里

本项目使用的docker-compose文件如下,根据docker-compose的内容,大致分为三个部分。

分布式MinIO可以让你将多块硬盘(甚至在不同的机器上)组成一个对象存储服务。由于硬盘分布在不同的节点上,分布式MinIO避免了单点故障。
详细参考 这里

Docker-compose中的 minio1-4 z组成MinIO分布式存储,对应存储服务的4个节点,每个节点使用相同的 MINIO_ACCESS_KEY 和 MINIO_SECRET_KEY 。部署成功后访问 http://127.0.0.1:9001/ ,输入 minio , minio123 即可看到如下界面(点击右下角可以创建bucket):
详细参考 这里

Docker-compose中的 spark-master , spark-worker 组成Spark集群。 spark-master 与 minio1 建立容器链接,后续需要Spark读写MinIO存储。部署成功后访问 http://127.0.0.1:8080/ 即可看到如下界面:

Saprk集群相关知识参考 这里

Docker-compose中的 minio-mc 对应MinIO Client。MinIO Client提供了一些命令如 ls, cat, cp, mirror, diff, find 等,实现与MinIO云存储服务的交互。 minio-mc 与 minio1 建立容器链接,后续需要使用 minio-mc 创建bucket。
MinIO Client的相关知识参考 链接1 , 链接2

Spark访问MinIO存储需要一些依赖包,具体参考 这里 。其中必须添加的两个jar包是: hadoop-aws-2.7.3 , aws-java-sdk-1.7.4 。

配置Spark集群参考 链接1 , 链接2 , 链接3 , 链接4 , 链接5

在 Docker Swarm 上部署 Spark 和 HDFS 不会启用数据本地化

】在DockerSwarm上部署Spark和HDFS不会启用数据本地化【英文标题】:DeployingSparkandHDFSonDockerSwarmdoesn\'tenabledatalocality【发布时间】:2020-03-0601:59:22【问题描述】:我正在尝试使用DockerSwarm作为堆栈部署在小型集群上设置Spark+HDFS部署。... 查看详情

如何使用openstack,docker和spark打造一个云服务

参考技术A蘑菇街基于OpenStack和Docker的私有云实践本次主要想分享一下过去一年时间里,我们在建设基于Docker的私有云实践过程中,曾经遇到过的问题,如何解决的经验,还有我们的体会和思考,与大家共勉。在生产环境中使用Do... 查看详情

docker中提交任务到spark集群(代码片段)

1. 背景描述和需求数据分析程序部署在Docker中,有一些分析计算需要使用Spark计算,需要把任务提交到Spark集群计算。接收程序部署在Docker中,主机不在Hadoop集群上。与Spark集群网络互通。 需求如下1、在Docker中可程序化向... 查看详情

基于fastapi和docker的机器学习模型部署快速上手(代码片段)

...er+fastapi部署机器学习的一个完整示例outlinefastapi简单示例基于文件内容检测的机器学习&fastapi在docker容器部署Installpipinstallfastapipipinstall"uvicorn[standard]"examplefromtypingimportOptionalfromfastapiimportF 查看详情

广告业务系统之敏捷交付——“基于docker容器同机部署”(代码片段)

文章目录广告业务系统之敏捷交付——“基于Docker容器同机部署”服务Docker构建及部署代码支持服务打包&构建服务部署广告业务系统之敏捷交付——“基于Docker容器同机部署”服务Docker构建及部署在ADX系统中,全链路涉... 查看详情

spark概述和安装部署

1、spark概述1、什么是spark基于内存的计算引擎,它的计算速度非常快。但是spark仅仅只涉及到数据的计算,没有涉及到数据的存储。2、为什么学习spark比mapreduce计算速度快很多。3、spark特点1、速度快比mapreduce在内存中快100x,在... 查看详情

基于docker的goldengate部署

前言   Docker最近几年异常火爆,主要是因为其方便、快捷、轻量,相对于VM,它不需要占用太多资源,随时可以创建、删除,或在已有image上添加一些软件,再制作成另一个模板image供日后使用。Docker提供的Hub或privatere... 查看详情

spark实战1:基于gettyimagessparkdockerimage创建spark集群

1、首先下载该镜像到本地。https://hub.docker.com/r/gettyimages/spark/~$dockerpullgettyimages/spark2、从https://github.com/gettyimages/docker-spark/blob/master/docker-compose.yml下载编写好的支持Spark集群的docker-compose.yml文件启动 查看详情

基于共享存储的harbor高可用-docker部署方案

部署规划架构图Redis也可以和Harbor集中部署。这样避免了在不使用Reids集群模式下单节点的故障。使用此模式,目前测试对于Harbor的登录,镜像信息查看,在计算节点,镜像的推送和下载没有问题。其他情况,尚未可知,待验证... 查看详情

spark系列——基于zookeeper搭建spark高可用集群

一、集群规划这里搭建一个3节点的Spark集群,其中三台主机上均部署Worker服务。同时为了保证高可用,除了在hadoop001上部署主Master服务外,还在hadoop002和hadoop003上分别部署备用的Master服务,Master服务由Zookeeper集群进行协调管理,... 查看详情

docker入门与应用系列介绍和部署

...间不会有任何接口。  Docker是Docker.inc公司开源的一个基于LXC技术之上构建的Container容器引擎,源代码托管在GitHub上,基于Go语言并遵从Apache2.0协议开源 查看详情

广告业务系统之敏捷交付——“基于docker容器同机部署”(代码片段)

文章目录广告业务系统之敏捷交付——“基于Docker容器同机部署”服务Docker构建及部署代码支持服务打包&构建服务部署广告业务系统之敏捷交付——“基于Docker容器同机部署”服务Docker构建及部署在ADX系统中,全链路涉及大... 查看详情

spark集群安装-基于hadoop集群(代码片段)

文章目录hadoop集群下载环境配置集群配置测试hadoop集群参考使用docker部署hadoop集群-手把手复现下载首先查看hadoop版本hadoopversion下载sparkhttp://spark.apache.org/downloads.htmlcd/usr/local#yum-yinstallwgetwgethttps://mirrors.bfsu.edu.cn/apache/sp 查看详情

基于docker+jenkins实现自动化部署(代码片段)

Jenkins是一个基于java开发的开源 CI&CD软件,用于自动化各种任务,包括构建、测试和部署软件。jenkins官网:https://jenkins.iojenkins下载地址:https://jenkins.io/download/ 请检测是否安装docker,如果没有安装或想提速下载请走这... 查看详情

[徐培成系列实战课程]-docker篇-前序

[徐培成系列实战课程]docker篇如何利用docker快速构建Spark独立模式的集群1、介绍利用docker容器技术快速构建跨节点的独立模型的Spark大数据集群。Spark是时下非常热门的大数据计算引擎,现在apche官方网站已经更新至2.3.1的版本,... 查看详情

onos集群---基于docker部署(代码片段)

...群。为了能够快速的搭建起ONOS的集群环境,官网提供了基于docker的部署镜像。当我们部署完成docker环境以后,可以很方便的使用docker来部署一个ONOS的集群。[关于docker的环境部署,参考:http://www.cnblogs.com/BurlyLuo/p/8283815.html]ONOS使... 查看详情

docker快速部署es集群spark集群(代码片段)

...直接在主机ip设置。我不想搞多个虚拟机,如果那样还要docker干嘛呢。首先需要设置docker容器IP   首先验证一下先从私库中拉下镜像dockerpull192.168.1.153:31809/zookeeper.new.esdockerrun-itd--netdocker-ice--ip192.168.10.11192.168.1.153:31809/zo... 查看详情

centos7基于docker-compose安装部署awx(代码片段)

Centos7基于Docker-Compose安装部署AWXAWX提供基于Ansible的Web用户界面、RESTAPI和任务引擎它是AnsibleTower的上游开源项目。基础准备:为了减少安装过程中的问题,可以进行如下暴力的操作1、关闭防火墙$systemctlstopfirewalld&&systemctldis... 查看详情