开源项目丨一文详解一站式大数据平台运维管家chengying如何部署hadoop集群

数栈DTinsight 数栈DTinsight     2022-12-01     145

关键词:

课件获取:关注公众号 “数栈研习社”,后台私信 “ChengYing” 获得直播课件

视频回放:​​点击这里​

ChengYing 开源项目地址:​​github​​ 丨 ​​gitee​​ 喜欢我们的项目给我们点个__ STAR!STAR!!STAR!!!(重要的事情说三遍)__

技术交流钉钉 qun:30537511

本期我们带大家回顾一下海洋同学的直播分享《ChengYing 部署 Hadoop 集群实战》

一、Hadoop 集群部署准备

在部署集群前,我们需要做一些部署准备,首先我们需要按照下载 Hadoop 产品包:

● Mysql

​https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Mysql_5.7.38_centos7_x86_64.tar​

● Zookeeper

​https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Zookeeper_3.7.0_centos7_x86_64.tar​

● Hadoop

​https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Hadoop_2.8.5_centos7_x86_64.tar​

● Hive

​https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Hive_2.3.8_centos7_x86_64.tar​

● Spark

​https://dtstack-opensource.oss-cn-hangzhou.aliyuncs.com/chengying/Spark_2.1.3-6_centos7_x86_64.tar​

接着我们可以将下载好的产品包直接通过 ChengYing 界面上传,具体路径是:部署中心 — 组件管理 — 组件列表 — 上传组件安装包:

开源项目丨一文详解一站式大数据平台运维管家

可以通过两种模式上传产品包:

本地上传方式

产品包在先下载到本机电脑存储中,点击本地上传,选在产品包上传。

开源项目丨一文详解一站式大数据平台运维管家

网络上传模式

直接填写产品包网络地址上传(ChengYing 的网络需要和产品包网络互通)。

开源项目丨一文详解一站式大数据平台运维管家

开源项目丨一文详解一站式大数据平台运维管家

Hadoop 集群部署流程

做完准备后,我们可以开始进入集群部署,Hadoop 集群部署流程包括以下步骤:

开源项目丨一文详解一站式大数据平台运维管家

集群部署顺序说明

  • 首先需要部署 Mysql 和 zookeeper,因为 Hadoop 需要依赖 zookeeper,Hive 元数据存储使用的是 Mysql;
  • 其次需要部署 Hadoop,Hive
  • 最后部署 Spark,因 Spark 依赖 hivemetastore

PS:部署顺序是不可逆的

Hadoop 集群部署角色分布

开源项目丨一文详解一站式大数据平台运维管家

开源项目丨一文详解一站式大数据平台运维管家

产品包标准部署流程

开源项目丨一文详解一站式大数据平台运维管家

  • 选择需要部署的产品包,点击部署按钮,然后选择对应需要部署的集群,默认集群为 dtstack,集群名称可配置;
  • 下一步选择需要部署的服务,默认产品包下的服务都会部署,可以根据实际需求部署,在此阶段可以对服务的配置文件进行修改,例如:修改 Mysql 连接超时时间等;
  • 最后点击部署,等待部署完成。

Mysql 服务部署流程演示

接下来我们以 Mysql 服务部署流程来为大家实际演示下整体流程:

● 第一步:选择集群

开源项目丨一文详解一站式大数据平台运维管家

开源项目丨一文详解一站式大数据平台运维管家

● 第二步:选择产品包

开源项目丨一文详解一站式大数据平台运维管家

● 第三步:选择部署节点

开源项目丨一文详解一站式大数据平台运维管家

● 第四步:部署进度查看

开源项目丨一文详解一站式大数据平台运维管家

开源项目丨一文详解一站式大数据平台运维管家

● 第五步:部署后状态查看

开源项目丨一文详解一站式大数据平台运维管家

开源项目丨一文详解一站式大数据平台运维管家

Hadoop 集群使用与运维

集群部署完毕后,若有需求可以进行配置变更操作。

● 配置修改

例如:如果需要操作修改 yarn 的配置文件,可以先选择 yarn-site.xml 文件,可以在搜索框搜索需要修改的配置文件 key,如 cpu_vcores。

开源项目丨一文详解一站式大数据平台运维管家

● 配置保存

开源项目丨一文详解一站式大数据平台运维管家

● 配置下发

开源项目丨一文详解一站式大数据平台运维管家

Taier 对接 Hadoop 操作流程

ChengYing 除了可自动部署运维外,还可以对接 Taier 部署 Hadoop 集群,Taier 是一个大数据分布式可视化的 DAG 任务调度系统,旨在降低 ETL 开发成本、提高大数据平台稳定性,大数据开发人员可以在 Taier 直接进行业务逻辑的开发,而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现,将工作的重心更多地聚焦在业务之中。

利用 ChengYing 部署管理 Taier 服务,可以做到实时监控 Taier 的服务状态,随时界面修改 Taier 配置等。Taier 对接 Hadoop 集群的操作流程如下:

开源项目丨一文详解一站式大数据平台运维管家

  • 首先需要在 Taier 控制台选择多集群配置,新增一个集群;
  • 然后配置 sftp、资源调度组件、存储组件和计算组件;
  • 配置完成后需要保存并且测试连通性。

注意事项:

在对接过程中,sftp 主机需要和 Taier 网络相通,并且 sftp 配置主机的路径需要存在,如果不存在,需要手动创建。

Taier 的部署网络需要与 Hadoop 网络相通,如果运行任务,需要在 Taier 所在节点加入 Hadoop 集群的 Host 配置;编译 /etc/hosts 文件,增加 IP Hostname。

● 第一步:配置公共组件

首先进入 Taier 登陆界面,点击控制台,新增集群,然后进入多集群管理界面,配置公共组件,选择 SFTP,进入 SFTP 配置界面。

开源项目丨一文详解一站式大数据平台运维管家

● 第二步:配置 SFTP

然后配置 SFTP 的 host,认证方式,默认采用用户名密码方式,输入用户名和密码,并且输入 path 路径,此路径需要在主机上存在,如果不存在,需要手动创建一个 SFTP 路径.

开源项目丨一文详解一站式大数据平台运维管家

● 第三步:资源调度组件配置

需要到部署 Hadoop 服务器到 /opt/dtstack/Hive/hive_pkg/conf 目录下获取 hive-site.xml 文件,下载到本地;

到 /opt/dtstack/Hadoop/Hadoop_pkg/etc/Hadoop 目录下获取 hdfs-site.xml、core-site.xml、yarn-site.xml 文件,下载到本地;

这四个文件压缩成一个 zip 包,上传这个压缩包。

开源项目丨一文详解一站式大数据平台运维管家

● 第四步:计算组件配置

选择计算组件模块,选择需要对接的计算引擎 Hive 和 Spark,选择 Hive 和 Spark 的版本,填写对应的 jdbc(jdbc:​​hive://ip:port/)连接串,然后点击保存,测试连通性。​

注意:jdbcurl 中 ip 分别为 Hive 组件的 hiveserver2 和 Spark 中的 thrifterserver 所在节点 ip。

开源项目丨一文详解一站式大数据平台运维管家

● 第五步:配置 Hive 和 Spark

以下是配置完成 Hive 和 Spark 组件后,测试连通性的状态。

注意:本地演示环境 Hadoop 未开启安全,Hive 和 Spark 只需要配置 jdbcurl 即可。

开源项目丨一文详解一站式大数据平台运维管家

Hadoop 集群近期规划

最后和大家聊聊 Hadoop 集群近期规划,近期主要有三大规划:

● 产品包制作

制作 ChengYing 部署产品包的流程及实践。

● ChunJun&Taier 产品包

制作可以用 ChengYing 部署的 Taier 和 chunjun 的产品包

● Hadoop 运维

通过 ChengYing 运维大数据集群;

通过 ChengYing 一键开启 Hadoop 集群安全。

袋鼠云开源框架钉钉技术交流qun30537511),欢迎对大数据开源项目有兴趣的同学加入交流最新技术信息,开源项目库地址:​​https://github.com/DTStack​

架构演进丨metersphere开源持续测试平台v2.3升级至微服务架构

2022年10月31日,MeterSphere一站式开源持续测试平台正式发布v2.3版本。在这一版本中,MeterSphere开源项目完成了一次重要的蜕变,正式从单体应用架构升级至微服务架构。从创立之初,MeterSphere项目就将自身定位为“... 查看详情

开源交流丨任务or实例详解大数据dag调度系统taier任务调度

...“Taier”获得直播课件视频回放:​​点击这里​​ChunJun开源项目地址:​​github​​​丨​​gitee​​喜欢我们的项目给我们点个__STAR!STAR!!STAR!!!(重要的事情说三遍)__技术交流钉钉qun:30537511前言在分享之前,先为... 查看详情

一篇运维老司机的大数据平台监控宝典-联通大数据集群平台监控体系进程详解

...知道ganglia、nagios、zabbix、elasticsearch、grafana等组件。这些开源组件都有着深厚的发展背景及功能价值,但需要合理搭配选择,如何配比资源从而达到性能的最优,这里就体现了运维人的深厚功 查看详情

一文详解如何在chengying中通过产品线部署一键提升效率

...和大家展开聊聊ChengYing产品线部署相关的设计。帮助对「一站式全自动化全生命周期大数据平台运维管家ChengYing」感兴趣的开发者更好地了解和使用ChengYing。产品线部署简介首先对ChengYing的产品线部署进行一个“自我介绍”,共... 查看详情

新起点丨metersphere开源持续测试平台v2.0发布

2022年8月1日,MeterSphere一站式开源持续测试平台正式发布v2.0版本。在经历了近三个月的v1.20LTS版本迭代后,MeterSphere的系统稳定性与可用性得到进一步提升,在8月正式迎来全新的v2.0版本。在这一版本中,MeterSphere... 查看详情

一文看懂开源许可证丨开源知识科普

在很多人眼中,「开源」是一个时髦且有情怀的词汇,不少公司也开始给自己贴上“开源”标签。但一个优秀的开源项目可远远不止是公布源代码、发篇新闻稿那么简单,它需要将开源精神贯彻到公司的战略中,... 查看详情

开源交流丨批流一体数据集成工具chunjun同步hive事务表原理详解及实战分享

...信“ChengYing”__获得直播课件视频回放:点击这里ChengYing开源项目地址:github丨gitee喜欢我们的项目给我们点个__STAR! 查看详情

中小企业数字化转型小课堂丨睿企管家-企业舆情助手

...查看最新的政策、报告、商机项目、产业大事件等,一站式监测企业舆情发展。企业舆情信息:利用NLP技术实现对企业舆情的正 查看详情

datasophon——国产开源大数据管理运维平台

1、DataSophon是谁开源的?国内某大厂2、DataSophon想干嘛?致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力,帮助您快速构建起稳定,高效的大数据集群服务。3、DataSophon是什么?DataSophon是致力于自... 查看详情

万字长文详解大数据应用实战案例-万亿级大数据监控平台建设方案

...、可用性及用户体验。监控系统是整个运维环节乃至整个项目及产品生命周期中最重要的一环。百分点大数据技术团队基于大数据平台项目,完成了百亿流量、约3000+台服务器集群规模的大数据平台服务的监控,沉淀了一套适合... 查看详情

emr重磅发布智能运维诊断系统(emrdoctor)——开源大数据平台运维利器

大数据运维的挑战—如何保证集群稳定与运行效率企业级大数据集群通常拥有海量的数据存储、日常运算成干上万的计算任务,需要满足各类上层业务的计算需求。对于这类集群的运维往往充满着挑战:海量的数据、庞... 查看详情

平台运维岗位职责

...悉虚拟化技术(KVM/Xen/LXC等),了解OpenStack,CloudStack等云计算开源平台,了解Nginx,Nagois,Zabbix,OVS,CEPH等相关开源 查看详情

分享大数据建模工具-大数据挖掘建模平台

...操作方式,通过丰富内置算法,帮助用户快速、一站式地进行数据分析及挖掘建模,可应用于处理海量数据、高复杂性的数据挖掘任务,为其提供准确、高精度的计算结果。改平台具有多方面的特点包括:平... 查看详情

几个优质的devops开源项目分享

...助企业拉通需求、设计、开发、部署、测试和运营流程,一站式提高管理效率和质量。从团队协同到DevOps工具链、从平台工具到体系化方法论,猪齿鱼全面满足协同管理与工程效率需求,贯穿端到端全流程,助力团队效能更快更... 查看详情

几个优质的devops开源项目分享

...助企业拉通需求、设计、开发、部署、测试和运营流程,一站式提高管理效率和质量。从团队协同到DevOps工具链、从平台工具到体系化方法论,猪齿鱼全面满足协同管理与工程效率需求,贯穿端到端全流程,助力团队效能更快更... 查看详情

协议实验室官方信息丨一文详解ipfs激励层launchpad加速器ii

...Web3公司。以下是加速器中出现并在演示日期间展示的DeFi项目的概述。HedgeyFinanceHedgeyFinance是一种将期权市场添加到任何通证的协议。什么是HedgeyFinance?He 查看详情

腾讯开源项目「应龙」成apache顶级项目:前身长期服务微信支付,能hold住百万亿级数据流处理...

...自凹非寺量子位|公众号QbitAI最新消息,由腾讯捐献的一站式大数据集成框架ApacheInLong,已从Apache孵化器毕业成为社区顶级项目。这一消息由全球最大开源软件基金会Apache软件基金会宣布。ApacheInLong也成为Apache社区首个一... 查看详情

盘古开源丨一文看懂filecoin广阔的商业前景

在踏入Web3时代的进程中,Filecoin这类分布式存储网络扮演着重要的角色。事实上,作为实现去中心化网络生态的支柱之一,可以说一个实用的分布式存储网络的存在必不可少。虽然与许多中心化大型存储服务供应商相... 查看详情