正文

hadoop集群搭建(步骤图文超详细版)(代码片段)

HuiSoul  HuiSoul  2023-01-21  436

关键词：

一、前置条件

需要安装	下载方法
Vmware Workstation	官网下载链接
Centos7系统	百度网盘下载，提取码：t6va
jdk1.8	官网下载链接
MobaXterm	百度网盘下载，提取码：f64v
hadoop(2.7.3版本)	百度网盘下载，提取码：963t

二、安装Centos系统

为了减少篇幅，我就把安装步骤放到另一篇博客，大家动动手指吧：安装教程

三、配置Centos系统静态IP（很重要！）

这里我之前的文章有写过，这里也不详细讲了，有需要的可以看看我这篇文章：配置教程

注意：不配置的话Centos系统无法连网！！！

三、解压jdk压缩包，配置环境变量

这一步每个主机节点都需要配置！！我这里只演示一台主机怎么配！！

1、我们第一步需要先用MobaXterm连接linux主机↓

2、为了统一管理，我们把所有的jdk包都放在~/software目录下

3、我们把从官网下载的jdk压缩包拖到这目录下

4、首先cd到/software目录下，命令：cd/software。然后解压缩jdk包，命令：tar -xzvf jdk-8u65-linux-x64.tar.gz
5、然后我们来配置环境变量，命令：vi /etc/profile，在末尾加上↓

按下键盘 “i” 进入插入模式，紧接着在末尾加上：命令↓
export JAVA_HOME=/software/jdk1.8.0_65
export PATH=.:$JAVA_HOME/bin : $PATH

然后按 esc退出插入模式，再输入：wq（注意有冒号！！)保存退出

6、让系统刷新配置文件，并找到JAVA环境变量，命令：source /etc/profile。查看JAVA版本信息，命令：java -version

四、配置免密钥登录

配置免密钥登录，需要namenode和datanode结点一起配置才能生效，下面我演示一下如何配置一个datanode结点，大家根据这个规则给namenode结点和其他datanode结点配置就好了

我这里设置了三个结点，其中.110是主节点，其余为从节点

修改主机名

根据哪个是主节点，哪个是从结点给予名字，如：namenode、datanodeA、datanodeB等等
命令↓

vi /etc/hostname

更改后利用命令查看是否更改成功，命令↓

hostname

增加ip映射关系

利用MobaXterm打开需要配置免密钥登录的结点，cd 到 /etc目录,命令↓

cd /etc

然后输入 vi hosts，修改host配置文件，添加映射关系：命令↓

vi hosts

按 i 进入插入模式，增加结点的ip地址

检查是否添加成功，命令：cat hosts

将配置文件“hosts”发送给集群中所有的主机，发送目标用户为结点ip地址或者节点主机名用户，发送目标路径为“/etc”，我这里只演示发送一个结点，如果要发送多个结点，只用复制命令，更改ip地址就好啦，接着输入要发送的结点的登录密码就完成发送了。

命令↓

scp -r /etc/hosts  root@结点ip地址或者节点主机名:/etc

我这里因为配置好了免密登录所以就不需要输入密码了

然后我们在接收结点的/etc/hosts文件里就可以看到原本的文件已经被覆盖成新文件了！

关闭防火墙

永久关闭防火墙命令↓

systemctl stop firewalld.service

禁止防火墙重启后自动启动命令↓

systemctl status firewalld

关闭防火墙后，看看防火墙状态是否关闭成功，命令↓

firewall-cmd --state

我们继续来配置免密码登录！

步骤↓
①cd到.ssh目录，命令↓

cd .ssh

有些同学在这一步可能找不到.ssh文件夹，我们可以使用命令：ssh localhost ，进入root用户，再cd .ssh就能找到这个文件夹了！

②利用 ls 命令查看目前目录存在的文件
③删除当前目录所有文件，命令：rm *，在提示是否删除后输入 y
④生成公钥私钥文件，命令↓

ssh-keygen -t rsa

注意：这里不要一直回车！在第一次询问时，末尾加上能代表本结点的名字！
为了后面方便配置，我改变了一下公钥文件的名字↓

再次注意！！
我们改完公钥文件名字之后需要把生成的私钥名字改回id_rsa，因为系统只能识别id_rsa为本机私钥，若没有改回来免密登录不会成功的！！
方法：只要在MobaXterm左边目录对着私钥文件右键Rename就可以了↓

⑤将公钥文件加入认证文件authorized_keys中，命令↓

cat id_rsa.pub >> authorized_keys;

一定要注意认证文件的名字要对，错误了系统是识别不到认证文件的

----------------------------一定要三个节点都完成上述步骤后才能进行下面的步骤---------------------------------------------

然后我们把该结点的公钥文件传送给另外两个节点的.ssh目录下，命令↓

scp 公钥文件名.pub root@节点主机名:~/.ssh/

从linux1节点往其他linux2和linux3节点传送公钥文件↓

三个节点都要进行上面互相传送公钥文件的操作！

互相传送后的结果截图↓

往每台主机的认证文件中加上另外两个节点的公钥

查看认证文件中是否有三个节点的公钥文件

验证免密码登录

刚刚我们在每个结点的认证文件中都加上了公钥文件，也就是现在开始从任何结点都可以免密码登录至其他结点了，我们来试试看↓

因为我们之前增加了ip映射关系，我们这里测试直接使用ssh+主机名就能进行登录了

免密登录已经配置成功了！

五、Hadoop配置

①将下载的hadoop压缩包放到 /software 目录下
②进行解压hadoop压缩包，命令：tar -xzvf hadoop-2.7.3.tar.gz
③将解压后的hadoop文件名修改成hadoop，方便后续操作

注意:这里有一个小技巧！我们这里只用将压缩包解压在主节点下就好了，因为我们可以在配置完后用 scp 命令将hadoop整个文件传送到其余节点下

修改全局配置文件路径，命令：vi /etc/profile，在末尾加上：

export HADOOP_HOME=/software/hadoop
export PATH=$HADOOP_HOME/bin: $HADOOP_HOME/sbin: $PATH

进入/software/hadoop 目录下，创建dfs和tmp两个空白文件夹，用于后续运行文件存储

进入/software/hadoop/dfs 目录下，创建data和name两个空白文件夹，用于后续运行文件存储

进入/software/hadoop/目录下

再进入 /software/hadoop/etc/hadoop目录下，接下来配置/software/hadoop/etc/hadoop/目录下的七个文件↓
slaves
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
hadoop-env.sh
yarn-env.sh

注意：Hadoop版本2和3此目录下的文件会有所不同！！建议大家使用Hadoop2.7.3版本！！
（最上面我已经更新了hadoop2.7.3版本的下载方法！）

slaves文件↓将原本的localhost删掉，加上所有结点的主机名

hadoop-env.sh↓，第25行加上java的jdk路径↓

yarn-env.sh↓，第26行加上java的jdk路径↓

--------------------------------------------以下均在配置文件中的configuration标签内添加-------------------------------------------

core-site.xml↓

<configuration>
 <property>
               <name>fs.defaultFS</name>
               <value>hdfs://主节点名:9000</value>
        </property>
        <property>
               <name>io.file.buffer.size</name>
               <value>131072</value>
        </property>
        <property>
               <name>hadoop.tmp.dir</name>
               <value>file:/software/hadoop/tmp</value>
  </property>
</configuration>

hdfs-site.xml↓

<configuration>
<property>
               <name>dfs.namenode.name.dir</name>
               <value>file:/software/hadoop/dfs/name</value>
        </property>
        <property>
               <name>dfs.namenode.data.dir</name>
               <value>file:/software/hadoop/dfs/data</value>
        </property>
        <property>
               <name>dfs.replication</name>   
               <!-- 从结点数 -->
               <value>3</value> 
        </property>
        <property>
                    <name>dfs.http.address</name>
                   <value>主节点名:50070</value>
           </property>
        <property>
               <name>dfs.namenode.secondary.http-address</name>   
               <value>主节点名:50090</value> 
        </property>

</configuration>

mapred-site.xml↓

<configuration>
<property>
               <name>mapreduce.framework.name</name>
               <value>yarn</value>
        </property>
        <property>
               <name>mapreduce.jobhistory.address</name>
               <value>主节点名:10020</value>
        </property>
        <property>
               <name>mapreduce.jobhistory.webapp.address</name>
               <value>主节点名:19888</value>
        </property>

</configuration>

yarn-site↓

<configuration>

        <property>
               <name>yarn.resourcemanager.address</name>
               <value>主节点名:8032</value>
        </property>
        <property>
               <name>yarn.resourcemanager.scheduler.address</name>
               <value>主节点名:8030</value>
        </property>
        <property>
               <name>yarn.resourcemanager.resource-tracker.address</name>
               <value>主节点名:8031</value>
        </property>
        <property>
               <name>yarn.resourcemanager.admin.address</name>
               <value>主节点名:8033</value>
        </property>
        <property>
               <name>yarn.resourcemanager.webapp.address</name>
               <value>主节点名:8088</value>
        </property>
        <property>
               <name>yarn.nodemanager.aux-services</name>
               <value>mapreduce_shuffle</value>
        </property>
        <property>
               <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
               <value>org.apache.hadoop.mapred.ShuffleHandler</value>
        </property>

</configuration>

用 scp 命令将主节点下已经配置好的hadoop文件整个传送至其余结点的~/software目录下↓

scp -r /software/hadoop root@linux2:~/software/
scp -r /software/hadoop root@linux3:~/software/

六、集群启动并测试集群

以下操作均需所有节点主机在开启状态中

在主节点主机操作：cd /software/hadoop

格式化NameNode，命令：bin/hdfs namenode -format

后续若要重新格式化步骤：

（1）停止所有节点上的NameNode和DataNode进程，命令：stop-all.sh（任何目录下都能运行）

（2）删除所有节点的data和logs文件夹（hadoop.tmp.dir）

（3）格式化NameNode

启动集群，命令：start-all.sh（任何目录下都能运行）

在主从节点中输入命令：jps，就能看到节点信息

在windows浏览器输入：http://主节点ip:50070/
就能访问HDFS页面啦！↓

在windows浏览器输入：http://主节点ip:8088/
就能看到yarn页面啦！↓

本次分享到此结束，谢谢大家阅读！！

hadoop——mapreduce相关eclipse配置及api调用(图文超详细版)(内含遇到错误的解决方法)(代码片段)

一、前情提要前面两篇文章我们已经成功搭建了Hadoop以及安装了Hive，Sqoop和Mysql数据库，现在我们就来利用Hadoop尝试做一个小实战，实现单词统计！还没有搭建Hadoop成功的同学，欢迎看看我之前的文章：Hado... 查看详情

hadoop3.1.3分布式集群搭建，超详细，保姆级教程(代码片段)

Hadoop3.1.3分布式集群搭建，超详细，保姆级教程1.环境准备2jdk1.8安装2.1卸载虚拟机自带的JDK2.2安装JDK1.83.在hadoop102安装Hadoop集群3.1集群安装准备3.2安装hadoop3.3hadoop运行模式3.4完全分布式运行模式（开发重点）3.4.1编... 查看详情

从vmware安装建centos7虚拟机到hadoop集群搭建详细图文过程；以及安装中的一些问题(代码片段)

...模板机（二）克隆三台虚拟机三、搭建三台机器Hadoop集群1.集群部署2.在hadoop102上安装jdk3.在hadoop102上安装hadoop4.准备同步数据脚本 5.SSH免密登录6.配置文件7.格式化namenode，以及单点启动8.官方四个群查看详情

hadoop集群搭建，14张过程截图超详细教程(代码片段)

...大数据小禅”🚀**文章简介**：本篇文章主要讲解Hadoop集群的搭建，为了方便大家理解与操作，关键的步骤博主都进行了截图，减少小伙伴的出错概率。🚀**文章源码获取**：本文的搭建PDF，相关安... 查看详情

hadoop集群搭建，14张过程截图超详细教程(代码片段)

zookeeper集群搭建步骤（超详细）(代码片段)

...要做！！）三、安装与配置zookeeper四、zookeeper集群测试一、准备三台虚拟机，并列出对应的IP地址和主机名，如下图所示IP Hostname192.168.154.1 查看详情

k8s单节点集群二进制部署（步骤详细，图文详解）(代码片段)

k8s单节点集群二进制部署（步骤详细，图文详解）一、k8s集群搭建环境准备1、etcd集群master01node01node02所有node节点部署docker引擎2、flannel网络插件3、搭建master组件4、搭建node组件（1）node1节点（2）node2节... 查看详情

k8s单节点集群二进制部署（步骤详细，图文详解）(代码片段)

hadoop3hdfs高可用环境搭建（详细图文教程）(代码片段)

...：CentOS-7-x86_64-DVD-1804.isoJDK：jdk-8u202-linux-x64.tar.gzHadoop：hadoop-3.1.3.tar.gzzooke 查看详情

hadoop集群hdfsyarn高可用ha详细配置步骤说明，附zookeeper搭建详细步骤建议收藏！！！(代码片段)

💜🧡💛制作不易，各位大佬们给点鼓励！🧡💛💚点赞👍➕收藏⭐➕关注✅💛💚💙欢迎各位大佬指教，一键三连走起！一、ZooKeeper搭建1、上传安装包到master并解压tar-xvfzo... 查看详情

k8s单节点集群二进制部署（步骤详细，图文详解）(代码片段)

hadoop完全分布式集群搭建（超详细）-大数据集群搭建(代码片段)

hadoop完全分布式集群搭建本次搭建完全分布式集群用到的环境有：jdk1.8.0hadoop-2.7.7本次搭建集群所需环境也给大家准备了，下载链接地址：https://share.weiyun.com/dk7WgaVk密码：553ubk本次完全分布式集群搭建需要提前建... 查看详情

elk日志分析概述+实际部署图文超详细步骤（整理了几天）！！！(代码片段)

ELK日志分析系统前言一、ELK日志分析系统1.ELK的组成（Elasticsearch、Logstash、Kibana）2.ELK日志分析系统的处理步骤3.Elasticsearch组件简介（1）接近实时（NRT）（2）集群机制（3）索引（4& 查看详情

大数据技术栈-hadoop3.3.4-完全分布式集群搭建部署-centos7（完全超详细-小白注释版）虚拟机安装+平台部署(代码片段)

...虚拟机（已安装好虚拟机的可跳转至一、安装jdk与hadoop）（1）直接新建一台虚拟机（2）首次启用虚拟机，进行安装一、集群前置环境搭建（三台机器分别设置hostname、网卡（ip）配置、ssh... 查看详情

hadoop集群搭建准备环境，手把手教你一步一步搭建，超详细(代码片段)

Hadoop运行环境搭建准备环境由于各种原因，本人决定要在实验室使用三台主机搭建一个集群，集群使用的机器是三台破旧主机，破旧到什么程度，就是去库房拔了一下午，扒到了三台勉强还能跑的动的电脑&#... 查看详情

hadoop集群搭建详细步骤(代码片段)

目录一、模板虚拟机环境准备1.新建一台虚拟机hadoop100，并且配置好网络3.安装epel-release4.其他工具5.配置普通用户具有root权限，方便后期加sudo执行root权限的命令6.删除/opt/目录下的所有文件7.在/opt/目录下创建文件夹，... 查看详情

安装centos7搭配linux集群并进行ssh免密登录（图文超详细）(代码片段)

虚拟机VMware装配Linux集群安装centos7,搭配linux集群并进行ssh免密登录（图文超详细）centos7的安装（虚拟机环境）安装centos7,搭配linux集群并进行ssh免密登录（图文超详细）使用centos7搭配Linux集群，使用ssh... 查看详情

必成功的hadoop环境搭建jdk环境搭建-超详细操作(代码片段)

Hadoop的文件可以在这里下载：ApacheHadoopb 本次配置的Hadoop环境为hadoop-2.7.7|jdk配置的环境为jdk-1.8.0_141一、jdk环境搭配1.搭配Hadoop环境要先搭配jdk环境，否则无法运行和查看，在/root/wenjian中rz上传jdk文件[root@masterwenjian... 查看详情