大数据分析师实操练习(hadoop完全分布式集群搭建)(代码片段)

TianCMCC TianCMCC     2023-01-14     525

关键词:

参考自:大数据技能竞赛之hadoop完全分布式集群搭建(三)


练习内容:

  1. 安装并配置Hadoop相关环境;
  2. 相关配置文件,并确定master为namenode,slave1和slave2为datanode;
  3. 配置Yarn运行环境;
  4. 设置Yarn核心参数;
  5. 格式化HDFS,开启Hadoop完全分布式集群。

1. 将对应软件包解压到指定路径/usr/hadoop:

在master、slave1、slave2上操作以下三个步骤:

  1. 创建 /usr/hadoop 目录: mkdir /usr/hadoop
  2. 切换至hadoop安装包所在目录: cd /usr/package/
  3. 解压缩至指定路径:tar -zxvf hadoop-2.7.3.tar.gz -C /usr/hadoop

2. 配置Hadoop环境变量

在master、slave1、slave2上操作:

vim /etc/profile

=== 添加以下内容 ===

#HADOOP_HOME
export HADOOP_HOME=/usr/hadoop/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

使文件生效:source /etc/profile


3. 配置Hadoop运行环境hadoop-env.sh

在master、slave1、slave2上操作:

  1. 切换至Hadoop环境目录:cd /usr/hadoop/hadoop-2.7.3/etc/hadoop
  2. 修改hadoop-env.sh内容: vim hadoop-env.sh
  3. 将第25行处修改为当前的JAVA_HOME路径(集群基础配置中JAVA_HOME路径):
	export JAVA_HOME=/usr/java/jdk1.8.0_171


4. 设置全局参数,指定NN(NameNode)的IP为master(映射名),端口为9000:

在master、slave1、slave2上操作:

修改 core-site.xml 文件(还是在 /usr/hadoop/hadoop-2.7.3/etc/hadoop 路径下)

vim core-site.xml

在<configuration></configuration>中添加如下内容

<!-- 配置NameNode节点的地址和端口号 -->
<property>
	<name>fs.default.name</name>
	<value>hdfs://master:9000</value>
</property>


5. 指定存放临时数据的目录为hadoop安装目录下/hdfs/tmp(绝对路径):

在master、slave1、slave2上操作:

还是修改 core-site.xml 文件。

vim core-site.xml

(hadoop安装目录: /usr/hadoop/hadoop-2.7.3)

在<configuration></configuration>中添加如下内容 :

<!-- 指定存放临时数据的目录 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/usr/hadoop/hadoop-2.7.3/hdfs/tmp</value>
</property>


6. 设置HDFS参数:

在master、slave1、slave2上操作:

修改 hdfs-site.xml 文件以设置HDFS参数:

vim hdfs-site.xml
  • 指定备份文本数量为2:
<!-- 指定备份文本数量 -->
<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
  • 指定NameNode存放元数据信息路径为hadoop目录下/hdfs/name:
<!-- 指定NameNode存放元数据信息路径 -->
<property>
	<name>dfs.namenode.name.dir</name>
	<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/name</value>
</property>
  • 指定DataNode存放元数据信息路径为hadoop安装目录下/hdfs/data:
<!-- 指定DataNode存放元数据信息路径 -->
<property>
	<name>dfs.datanode.data.dir</name>
	<value>file:/usr/hadoop/hadoop-2.7.3/hdfs/data</value>
</property>


7. 设置YARN运行环境:

在master、slave1、slave2上操作:

vim yarn-env.sh

修改yarn-env.sh中的第23行为JAVA_HOME路径:

export JAVA_HOME=/usr/java/jdk1.8.0_171


8. 设置YARN核心参数,指定ResourceManager进程所在主机为master,端口为18141:

在master、slave1、slave2上操作:

vim yarn-site.xml

在<configuration></configuration>中添加如下内容 :

<!-- 指定ResourceManager进程所在主机 -->
<property>
	<name>yarn.resourcemanager.admin.address</name>
	<value>master:18141</value>
</property>


9. 设置YARN核心参数,指定NodeManager上运行的附属服务为shuffle:

在master、slave1、slave2上操作:

vim yarn-site.xml

在<configuration></configuration>中添加如下内容 :

<!-- 指定NodeManager上运行的附属服务 -->
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>


10. 设置计算框架参数,指定MR运行在yarn上:

在master、slave1、slave2上操作:

Hadoop集群中没有mapred-site.xml这个文件,因此需要把mapred-site.xml.template复制为mapred-site.xml

cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

在<configuration></configuration>中添加如下内容 :

<!-- 指定MR运行在yarn上 -->
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>


11. 设置节点文件,要求master为主节点; slave1、slave2为子节点:

在master、slave1、slave2上操作:

还是在 /usr/hadoop/hadoop-2.7.3/etc/hadoop 路径下,修改master、slaves文件:

vim master

=== 写入 ===

master
vim slaves

=== 写入 ===

slave1
slave2


12. 文件系统格式化:

在master上操作:

hadoop namenode -format

出现以下界面即代表格式化成功:


13. 启动Hadoop集群:

在master上操作:

start-all.sh start

然后输入 yes 即可启动:

hadoop完全分布式集群搭建

搭建好的hadoop集群,内置flume、hive、hbase、mysql、sqoop、zookeeper、spark、kafka1.hadoop集群可群启,可单启2.hive可正常处理data3.sqoop可正常导入导出data4.hbase可正常读写data5.可正常整合mapreduce6.导入你的电脑即可正常使用(已使用... 查看详情

大数据实战——hadoop集群组件启动及服务组件配置修改(代码片段)

前言本节内容我们主要介绍,如何启动hadoop的组件服务,例如hdfs、yarn等,并通过修改自定义配置文件,修改我们组件的配置。关于hadoop组件的部署同上一节内容,如下:hadoop集群组件分布hadoop101hadoop102hado... 查看详情

centos6.6zookeeper完全集群搭建

centos6.6搭建zookeeper-3.4.6完全分布式环境转载2015-06-2822:14:17标签:it为了搭建HBase完全分布式环境,前提就是搭建好zookeeper和Hadoop环境,这篇文章介绍zookeeper环境搭建,另外俩篇博文分别介绍Hadoop完全分布式环境和HBase完全分布式环... 查看详情

大数据☀️搞定hadoop集群☀️hadoop运行模式-完全分布式(代码片段)

目录 三大模式:完全分布式搭建:分析:编写集群分发脚本xsync:1.scp(securecopy)安全拷贝:2.rsync远程同步工具:3.xsync集群分发脚本:SSH无密登录配置:配置SSH:1.基本语法:2.ssh... 查看详情

大数据实战:用户流量分析系统

文章出处:http://blog.csdn.net/sdksdk0/article/details/51628874作者:朱培--------------------------------------------------------------------------------------------------------------- 本文是结合Hadoop中的mapredu 查看详情

hadoop完全分布式群起集群(代码片段)

群起集群1.配置workers2.启动集群3.集群基本测试1.配置workers[zs@hadoop102hadoop]$vim/opt/module/hadoop-3.1.3/etc/hadoop/workers在该文件中增加如下内容:hadoop102hadoop103hadoop104添加集群的主机名称注意:该文件中添加的内容结尾不允许... 查看详情

大数据实战——hadoop集群实现免密登录和文件互传(代码片段)

前言本节内容我们主要介绍一下hadoop集群服务器之间实现免密登录和文件互传的功能,这样更加方便我们使用hadoop服务器实现服务器之间的相互登录和文件的相互传输。集群之间的访问不在需要授权就可以实现相互访问。正... 查看详情

hadoop完全分布式编写hadoop集群常用脚本(代码片段)

编写Hadoop集群常用脚本1.集群启动/停止方式总结1)各个模块分开启动/停止2)各个服务组件逐一启动/停止2.编写Hadoop集群常用脚本1)Hadoop集群启停脚本2)查看三台服务器Java进程脚本:jpsall3)分发/home/atgui... 查看详情

hadoop完全分布式集群配置(代码片段)

Hadoop集群配置1.集群部署规划2.配置文件说明3.配置集群3.1核心配置文件3.2HDFS配置文件3.3YARN配置文件3.4MapReduce配置文件4.集群同步5.集群验证核查1.集群部署规划注意:NameNode和SecondaryNameNode不要安装在同一台服务器ResourceManager... 查看详情

hadoop完全分布式集群搭建(代码片段)

Hadoop完全分布式三节点集群搭建0、准备工作版本选型:系统名称版本centos7.9java1.8.0_291mysql8.0.23Hadoop2.7.7Hive2.3.7硬件规划:组件10.0.7.110.0.7.210.0.7.3JavaYYYMySqlServer+ClientNNHiveClientNNHadoop-YARNNodeManagerRe 查看详情

大数据系列——hadoop集群完全分布式坏境搭建

...8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本篇的正题。技术准备VMware虚拟机、CentOS6.864bit安装流程我们先来回顾上一篇我们完成的单节点的Hadoop环境配置,已经配置了一个CentOS6... 查看详情

超详细从零记录hadoop2.7.3完全分布式集群部署过程

超详细从零记录Ubuntu16.04.13台服务器上Hadoop2.7.3完全分布式集群部署过程。包含,Ubuntu服务器创建、远程工具连接配置、Ubuntu服务器配置、Hadoop文件配置、Hadoop格式化、启动。(首更时间2016年10月27日)主机名/hostnameIP角色hadoop1192... 查看详情

hadoop完全分布式集群时间同步(代码片段)

集群时间同步前言1.需求2.时间服务器配置2.1查看所有节点ntpd服务状态和开机自启动状态2.2修改hadoop102的ntp.conf配置文件2.3修改hadoop102的/etc/sysconfig/ntpd文件2.4重新启动ntpd服务2.5设置ntpd服务开机启动3.其他机器配置前言如果服务器... 查看详情

hadoop全分布式集群搭建好了,每台机器启动的节点也正确,但是就是不能上传本地文件,报错:

19/02/2723:58:41WARNhdfs.DataStreamer:DataStreamerExceptionorg.apache.hadoop.ipc.RemoteException(java.io.IOException):File/in/HTTP_20180313143750.dat._COPYING_couldonlybereplicatedto0nodesinsteadofminReplication(=1).Thereare0datanode(s)runningandnonode(s)areexcludedinthisoperation. atorg.apache.hado... 查看详情

hadoop学习之hadoop安装jdk安装集群启动(完全分布式)(代码片段)

...nder本文专栏:Hadoop学习 前言:本文主要是对hadoop完全分布式环境安装过程中的hadoop安装以及JDK安装作详细的介绍,以及集群启动。目录正文一.整体部署情况二.JDK安装 查看详情

spark2.x企业级大数据项目实战(实时统计离线分析和实时etl)

Spark2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg提取码:9n1x本门课程来源于一线生产项目,所有代码都是在现网大数据集群上稳定运行,拒绝Demo。课程涵盖了离... 查看详情

hadoop集群完全分布式搭建教程-centos(代码片段)

    本篇在前一篇《Hadoop单机模式和伪分布式搭建教程》的基础上完成完全分布式的搭建,所以本篇的前提是已经按照之前的教程完成了伪分布式的安装。注意截图中的slaver应该是slave,哈哈,搭建的时候多打了r... 查看详情

linux从零搭建hadoop集群(centos7+hadoop3.2.0+jdk1.8+mapreduce完全分布式集群案例)(代码片段)

Linux从零搭建Hadoop集群(CentOS7+hadoop3.2.0+JDK1.8+Mapreduce完全分布式集群案例)关键字和相关配置版本关键字:LinuxCentOSHadoopJava版本:CentOS7Hadoop3.2.0JDK1.8基本主从思路:先把基础的设置在一台虚拟机(master) 查看详情