hadoop分布式部署(转载)--贼靠谱

author author     2023-05-04     443

关键词:

参考技术A 原文地址:https://blog.csdn.net/sjmz30071360/article/details/79889055

1. 集群搭建形式

Hadoop环境搭建分为三种形式:单机模式、伪分布式模式、完全分布模式

单机模式—— 在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。

伪分布式—— 也是在一台单机上运行,但不同的是Java进程模仿分布式运行中的各类节点。即一台机器上,既当NameNode,又当DataNode,或者说既是JobTracker又是TaskTracker。没有所谓的在多台机器上进行真正的分布式计算,故称为“伪分布式”。

完全分布式—— 真正的分布式,由3个及以上的实体机或者虚拟机组成的机群。一个Hadoop集群环境中,NameNode,SecondaryName和DataNode是需要分配在不同的节点上,也就需要三台服务器。

前两种模式一般用在开发或测试环境下,生产环境下都是搭建完全分布式模式。

从分布式存储的角度来说,集群中的节点由一个NameNode和若干个DataNode组成,另有一个SecondaryNameNode作为NameNode的备份。

从分布式应用的角度来说,集群中的节点由一个JobTracker和若干个TaskTracker组成。JobTracker负责任务的调度,TaskTracker负责并行执行任务。TaskTracker必须运行在DataNode上,这样便于数据的本地计算。JobTracker和NameNode则无须在同一台机器上。

2. 环境

    操作系统:CentOS7(红帽开源版)

    机器:虚拟机3台,(master 192.168.0.104, slave1 192.168.0.102, slave2 192.168.0.101)

    JDK:1.8(jdk-8u162-linux-x64.tar)

    Hadoop:2.9.0(http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.9.0/hadoop-2.9.0.tar.gz)

3. 搭建步骤

3.1 每台机器安装&配置JDK(1台做好后,克隆出其它机器)

1) 创建目录 mkdir /usr/java

2) 上传jdk安装包到 /usr/java/

3) 解压 tar -xvf jdk-8u162-linux-x64.tar

4) 追加环境变量 vi /etc/profile

5) 使环境变量生效 source /etc/profile

6) 检测jdk正确安装 java -version

3.2 修改每台机器主机名(hostname)

hostnamectl set-hostname master  (立即生效)

hostnamectl set-hostname slave1    (立即生效)

hostnamectl set-hostname slave2    (立即生效)

确认修改

3.3 修改每台机器/etc/hosts文件

vi /etc/hosts

修改其中1台,然后scp到其它机器

scp 文件名 远程主机用户名@远程主机名或ip:存放路径

scp hosts root@192.168.0.102:/etc/

scp hosts root@192.168.0.101:/etc/

修改完之后,互ping其它机器,能互ping则说明修改OK

ping -c 3 slave1 (※ 3表示发送 3 个数据包)

3.4 配置ssh,实现无密码登录

无密码登录,效果也就是在master上,通过ssh slave1或者ssh slave2就可以登录对方机器,而不用输入密码。

1) 每台机器执行ssh-keygen -t rsa,接下来一路回车即可

执行ssh-keygen -t rsa主要是生成 密钥 和 密钥的存放路径

我们用的root用户,公钥私钥都会保存在~/.ssh下

2) 在master上将公钥放到authorized_keys里,命令:cat id_rsa.pub > authorized_keys

3) 将master上的authorized_keys放到其它机器上

scp authorized_keys root@slave1:~/.ssh/

scp authorized_keys root@slave2:~/.ssh/

4) 测试是否成功

3.5 上传&配置hadoop(配置完master后,将/usr/hadoop/整个目录内容copy到其它机器)

1) 创建目录 mkdir /usr/hadoop

2) 上传hadoop安装包hadoop-2.9.0.tar.gz到 /usr/hadoop/

3) 解压 tar -xvf hadoop-2.9.0.tar.gz

4) 追加环境变量 vi /etc/profile(其它机器也要相应配置一次hadoop环境变量)

5) 使环境变量生效 source /etc/profile

6) 确认环境变量配置OK

7) 创建HDFS存储目录

cd /usr/hadoop

mkdir hdfs

cd hdfs

mkdir name data tmp

/usr/hadoop/hdfs/name    --存储namenode文件

/usr/hadoop/hdfs/data      --存储数据

/usr/hadoop/hdfs/tmp      --存储临时文件

8) 修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/hadoop-env.sh文件,设置JAVA_HOME为实际路径

否则启动集群时,会提示路径找不到

9) 修改/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-env.sh文件,设置JAVA_HOME为实际路径

10) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/core-site.xml

增加hadoop.tmp.dir 和 fs.default.name

11) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/hdfs-site.xml

dfs.replication:默认值3

dfs.permissions:默认值为true,设置为true有时候会遇到数据因为权限访问不了;设置为false可以不要检查权限就生成dfs上的文件

12) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/mapred-site.xml

cd /usr/hadoop/hadoop-2.9.0/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

mapreduce.framework.name:指定mapreduce运行在yarn平台,默认为local

13) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/yarn-site.xml

yarn.resourcemanager.hostname:指定yarn的resourcemanager的地址

yarn.nodemanager.aux-services:reducer获取数据的方式

yarn.nodemanager.vmem-check-enabled:意思是忽略虚拟内存的检查,如果安装在虚拟机上,这个配置很有用,配上去之后后续操作不容易出问题。如果是在实体机上,并且内存够多,可以将这个配置去掉

14) 配置/usr/hadoop/hadoop-2.9.0/etc/hadoop/slaves文件,将里面的localhost删除,配置后内容如下:

15) copy整个/usr/hadoop/目录到其它机器

scp -r hadoop root@slave1:/usr/

scp -r hadoop root@slave2:/usr/

3.6 启动Hadoop

1) 启动之前需要格式化一下。因为master是namenode,slave1和slave2都是datanode,所以在master上运行

hadoop namenode -format

格式化成功后,可以看到在/usr/hadoop/hdfs/name目录下多了一个current目录,而且该目录下有一系列文件,如下:

2) 执行启动(namenode只能在master上启动,因为配置在master上;datanode每个节点上都可以启动)

执行 start-all.sh

master上执行jps,会看到NameNode, SecondaryNameNode, ResourceManager

其它节点上执行jps,会看到DataNode, NodeManager

3) 在wins上打开网页,查看HDFS管理页面 http://192.168.0.104:50070查看,提示无法访问

在master上,执行以下命令关闭防火墙,即可访问(为了能够正常访问node节点,最好把其它机器的防火墙也stop了)

systemctl stop firewalld.service

HDFS管理首页

HDFS Datenodes页

访问Yarn管理页: http://192.168.0.104:8088

4)通过主机名也可以访问的设置

win7为例,需要将以下信息追加到C:\Windows\System32\drivers\etc\hosts文件中

192.168.0.104 master

192.168.0.102 slave1

192.168.0.101 slave2

Over!!!搭建成功!!!

4. 运行实例

cd /usr/hadoop/hadoop-2.9.0/share/hadoop/mapreduce

hadoop jar hadoop-mapreduce-examples-2.9.0.jar pi 5 10

。。。。。。

=====================================================

如果不关防火墙,子节点可能出现,输入jps后只有jps一个进程,或者是缺进程的情况,关闭防火墙就好了。

hadoop伪分布式集群搭建-此文章在个人51.cto转载(代码片段)

一、HDFS伪分布式环境搭建Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一... 查看详情

hadoop搭建伪分布式集群转载

...单机模式(独立模式)(Local或Standalone Mode)1.2、伪分布式模式(Pseudo-DistrubutedMode)1.3、全分布式集群模式(Full-DistributedMode)二、 查看详情

hadoop学习------hadoop安装方式之:分布式部署

这里为了方便直接将单机部署过的虚拟机直接克隆,当然也可以不这样做,一个个手工部署。创建完整克隆——>下一步——>安装位置。等待一段时间即可。 我这边用了三台虚拟机,分别起名master,slave1.slave21、修改主机... 查看详情

centos7下hadoop分布式部署(代码片段)

Hadoop服务划分使用三台节点,集群部署规划如下服务\\主机 hadoop1hadoop2hadoop3HDFSNameNodeDataNodeDataNodeSecondaryNameNodeDataNodeYARNNodeManagerResourceManagerNodeManagerNodeManagerIP地址规划hadoop1192.168.123.11hadoop2192 查看详情

分布式hadoop部署(代码片段)

1.安装并配置Hadoopmkdir-p/usr/hadoop&&cd/usr/package277/tar-zxvfhadoop-2.7.7.tar.gz-C/usr/hadoop/xsync.sh/usr/hadoop/将Hadoop安装目录配置到环境变量中,方便后续使用:vim/etc/profile#hadoopexportHADOOP_HOME 查看详情

hadoop2.7.3完全分布式部署

本次测试环境如下 IP   hostJDKlinuxhadoprole172.16.101.55sht-sgmhadoopnn-011.8.0_111CentOSrelease6.5hadoop-2.7.4namenode172.16.101.58sht-sgmhadoopdn-011.8.0_111CentOSrelease6.5hadoop-2.7.4d 查看详情

hadoop完全分布式部署(三节点)(代码片段)

...来测试,我在VMware下用Centos7搭起一个三节点的Hadoop完全分布式集群。其中NameNode和DataNode在同一台机器上,如果有条件建议大家把NameNode单独放在一台机器上,因为NameNode是集群的核心承载压力是很大的。hadoop版本:Hadoop-2.7.4;&nb... 查看详情

hadoop2.x分布式集群部署(代码片段)

hadoop,spark,kafka交流群:224209501标签(空格分隔):hadoop1,根据集群配置合理规划hadoop集群组件本节主要讲述:如何依据集群机器配置(内存、硬盘、CPU核)合理规划Hadoop服务组件部署的几点(... 查看详情

超详细从零记录hadoop2.7.3完全分布式集群部署过程

超详细从零记录Ubuntu16.04.13台服务器上Hadoop2.7.3完全分布式集群部署过程。包含,Ubuntu服务器创建、远程工具连接配置、Ubuntu服务器配置、Hadoop文件配置、Hadoop格式化、启动。(首更时间2016年10月27日)主机名/hostnameIP角色hadoop1192... 查看详情

hadoop分布式系统的安装部署

1、关于虚拟机的复制新建一台虚拟机,系统为CentOS7,再克隆两台,组成一个三台机器的小集群。正常情况下一般需要五台机器(一个Name节点,一个SecondName节点,三个Data节点。) 此外,为了使网络生效,需要注意以下几点... 查看详情

hadoop分布式部署

准备硬件环境此次用到三台计算机,三台计算机的系统都是Linux,并且以安装好JAVA。IP地址和角色为:namenode:192.168.0.1datanode:192.168.0.2datanode:192.168.0.3三台计算机之间能够正确解析彼此。因此需要修改/etc/hosts文件,主节点上需... 查看详情

hadoop2.x-基础(hadoophdfsyarnmapreduce安装与部署本地模式伪分布式完全分布式)(代码片段)

Hadoop2.x-基础Hadoop是什么Hadoop是Apache基金会所开发的分布式系统基础机构,主要是用于解决海量数据的存储,和海量数据的分析计算问题Hadoop在大部分情况下并不只的是Hadoop框架,而是整个Hadoop的生态圈Hadoop三大发行... 查看详情

hadoop实战——hadoop架构思想伪分布式无密登陆部署

1.准备Linux环境1.0配置VMware和windows本地net8网卡IP点击VMware快捷方式,右键打开文件所在位置->双击vmnetcfg.exe->VMnet1host-only->修改subnetip设置网段:192.168.1.0子网掩码:255.255.255.0->apply->ok回到windows-- 查看详情

linux企业运维——hadoop大数据平台(上)hadoop工作原理部署资源管理器yarn(代码片段)

...1.2、Hadoop工作原理二、Hadoop工作模式2.1、hadoop部署2.2、伪分布式2.3、完全分布式三、资源管理器YARN一、Hadoop简介1.1、Hadoop框架与模块Hadoop名字不是一个缩写,是Hadoop之父DougCutting儿子毛绒玩具象命名的。Hadoop起源于Google的三... 查看详情

实战centos系统部署hadoop集群服务

导读Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthro... 查看详情

hbase分布式环境安装部署(代码片段)

HBase的安装有两种方式:单机安装和分布式安装。HBase的单机安装了解即可,大家重点掌握HBase分布式集群的安装。下面我们分别进行介绍。HBase单机安装HBase需要运行在Hadoop基础之上,因此安装HBase的前提是必须安装Hadoop环境。Had... 查看详情

大数据讲课笔记3.2hadoop部署模式(代码片段)

...、新课讲解(一)Hadoop部署模式1、独立模式2、伪分布式模式3、完全分布式模式(二)Hadoop集群规划1、集群拓扑2、角色分配(三)JDK安装与配置1、下载JDK压缩包2、上传到master虚拟机3、在master虚拟机上安... 查看详情

大数据讲课笔记3.2hadoop部署模式(代码片段)

...、新课讲解(一)Hadoop部署模式1、独立模式2、伪分布式模式3、完全分布式模式(二)Hadoop集群规划1、集群拓扑2、角色分配(三)JDK安装与配置1、下载JDK压缩包2、上传到master虚拟机3、在master虚拟机上安... 查看详情