关键词:
NSD ARCHITECTURE DAY05
1 案例1:安装Hadoop
1.1 问题
本案例要求安装单机模式Hadoop:
- 单机模式安装Hadoop
- 安装JAVA环境
- 设置环境变量,启动运行
1.2 步骤
实现此案例需要按照如下步骤进行。
步骤一:环境准备
1)配置主机名为nn01,ip为192.168.1.21,配置yum源(系统源)
备注:由于在之前的案例中这些都已经做过,这里不再重复,不会的学员可以参考之前的案例
2)安装java环境
- [[email protected] ~]# yum -y install java-1.8.0-openjdk-devel
- [[email protected] ~]# java -version
- openjdk version "1.8.0_131"
- OpenJDK Runtime Environment (build 1.8.0_131-b12)
- OpenJDK 64-Bit Server VM (build 25.131-b12, mixed mode)
- [[email protected] ~]# jps
- 1235 Jps
3)安装hadoop
- [[email protected] ~]# tar -xf hadoop-2.7.6.tar.gz
- [[email protected] ~]# mv hadoop-2.7.6 /usr/local/hadoop
- [[email protected] ~]# cd /usr/local/hadoop/
- [[email protected] hadoop]# ls
- bin include libexec NOTICE.txt sbin
- etc lib LICENSE.txt README.txt share
- [[email protected] hadoop]# ./bin/hadoop //报错,JAVA_HOME没有找到
- Error: JAVA_HOME is not set and could not be found.
- [[email protected] hadoop]#
4)解决报错问题
- [[email protected] hadoop]# rpm -ql java-1.8.0-openjdk
- [[email protected] hadoop]# cd ./etc/hadoop/
- [[email protected] hadoop]# vim hadoop-env.sh
- 25 export \
- JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
- 33 export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"
- [[email protected] ~]# cd /usr/local/hadoop/
- [[email protected] hadoop]# ./bin/hadoop
- Usage: hadoop [--config confdir] [COMMAND | CLASSNAME]
- CLASSNAME run the class named CLASSNAME
- or
- where COMMAND is one of:
- fs run a generic filesystem user client
- version print the version
- jar <jar> run a jar file
- note: please use "yarn jar" to launch
- YARN applications, not this command.
- checknative [-a|-h] check native hadoop and compression libraries availability
- distcp <srcurl> <desturl> copy file or directories recursively
- archive -archiveName NAME -p <parent path> <src>* <dest> create a hadoop archive
- classpath prints the class path needed to get the
- credential interact with credential providers
- Hadoop jar and the required libraries
- daemonlog get/set the log level for each daemon
- trace view and modify Hadoop tracing settings
- Most commands print help when invoked w/o parameters.
- [[email protected] hadoop]# mkdir /usr/local/hadoop/aa
- [[email protected] hadoop]# ls
- bin etc include lib libexec LICENSE.txt NOTICE.txt aa README.txt sbin share
- [[email protected] hadoop]# cp *.txt /usr/local/hadoop/aa
- [[email protected] hadoop]# ./bin/hadoop jar \
- share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount aa bb //wordcount为参数 统计aa这个文件夹,存到bb这个文件里面(这个文件不能存在,要是存在会报错,是为了防止数据覆盖)
- [[email protected] hadoop]# cat bb/part-r-00000 //查看
2 案例2:安装配置Hadoop
2.1 问题
本案例要求:
- 另备三台虚拟机,安装Hadoop
- 使所有节点能够ping通,配置SSH信任关系
- 节点验证
2.2 方案
准备四台虚拟机,由于之前已经准备过一台,所以只需再准备三台新的虚拟机即可,安装hadoop,使所有节点可以ping通,配置SSH信任关系,如图-1所示:
图-1
2.3 步骤
实现此案例需要按照如下步骤进行。
步骤一:环境准备
1)三台机器配置主机名为node1、node2、node3,配置ip地址(ip如图-1所示),yum源(系统源)
2)编辑/etc/hosts(四台主机同样操作,以nn01为例)
- [[email protected] ~]# vim /etc/hosts
- 192.168.1.21 nn01
- 192.168.1.22 node1
- 192.168.1.23 node2
- 192.168.1.24 node3
3)安装java环境,在node1,node2,node3上面操作(以node1为例)
- [[email protected] ~]# yum -y install java-1.8.0-openjdk-devel
4)布置SSH信任关系
- [[email protected] ~]# vim /etc/ssh/ssh_config //第一次登陆不需要输入yes
- Host *
- GSSAPIAuthentication yes
- StrictHostKeyChecking no
- [[email protected] .ssh]# ssh-keygen
- Generating public/private rsa key pair.
- Enter file in which to save the key (/root/.ssh/id_rsa):
- Enter passphrase (empty for no passphrase):
- Enter same passphrase again:
- Your identification has been saved in /root/.ssh/id_rsa.
- Your public key has been saved in /root/.ssh/id_rsa.pub.
- The key fingerprint is:
- SHA256:Ucl8OCezw92aArY5+zPtOrJ9ol1ojRE3EAZ1mgndYQM [email protected]
- The key‘s randomart image is:
- +---[RSA 2048]----+
- | o*E*=. |
- | +XB+. |
- | ..=Oo. |
- | o.+o... |
- | .S+.. o |
- | + .=o |
- | o+oo |
- | o+=.o |
- | o==O. |
- +----[SHA256]-----+
- [[email protected] .ssh]# for i in 21 22 23 24 ; do ssh-copy-id 192.168.1.$i; done
- //部署公钥给nn01,node1,node2,node3
5)测试信任关系
- [[email protected] .ssh]# ssh node1
- Last login: Fri Sep 7 16:52:00 2018 from 192.168.1.21
- [[email protected] ~]# exit
- logout
- Connection to node1 closed.
- [[email protected] .ssh]# ssh node2
- Last login: Fri Sep 7 16:52:05 2018 from 192.168.1.21
- [[email protected] ~]# exit
- logout
- Connection to node2 closed.
- [[email protected] .ssh]# ssh node3
步骤二:配置hadoop
1)修改slaves文件
- [[email protected] ~]# cd /usr/local/hadoop/etc/hadoop
- [[email protected] hadoop]# vim slaves
- node1
- node2
- node3
2)hadoop的核心配置文件core-site
- [[email protected] hadoop]# vim core-site.xml
- <configuration>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://nn01:9000</value>
- </property>
- <property>
- <name>hadoop.tmp.dir</name>
- <value>/var/hadoop</value>
- </property>
- </configuration>
- [[email protected] hadoop]# mkdir /var/hadoop //hadoop的数据根目录
- [[email protected] hadoop]# ssh node1 mkdir /var/hadoop
- [[email protected] hadoop]# ssh node2 mkdir /var/hadoop
- [[email protected] hadoop]# ssh node3 mkdir /var/hadoop
3)配置hdfs-site文件
- [[email protected] hadoop]# vim hdfs-site.xml
- <configuration>
- <property>
- <name>dfs.namenode.http-address</name>
- <value>nn01:50070</value>
- </property>
- <property>
- <name>dfs.namenode.secondary.http-address</name>
- <value>nn01:50090</value>
- </property>
- <property>
- <name>dfs.replication</name>
- <value>2</value>
- </property>
- </configuration>
4)同步配置到node1,node2,node3
- [[email protected] hadoop]# yum –y install rsync //同步的主机都要安装rsync
- [[email protected] hadoop]# for i in 22 23 24 ; do rsync -aSH --delete /usr/local/hadoop/
- \ 192.168.1.$i:/usr/local/hadoop/ -e ‘ssh‘ & done
- [1] 23260
- [2] 23261
- [3] 23262
5)查看是否同步成功
- [[email protected] hadoop]# ssh node1 ls /usr/local/hadoop/
- bin
- etc
- include
- lib
- libexec
- LICENSE.txt
- NOTICE.txt
- bb
- README.txt
- sbin
- share
- aa
- [[email protected] hadoop]# ssh node2 ls /usr/local/hadoop/
- bin
- etc
- include
- lib
- libexec
- LICENSE.txt
- NOTICE.txt
- bb
- README.txt
- sbin
- share
- aa
- [[email protected] hadoop]# ssh node3 ls /usr/local/hadoop/
- bin
- etc
- include
- lib
- libexec
- LICENSE.txt
- NOTICE.txt
- bb
- README.txt
- sbin
- share
- aa
步骤三:格式化
- [[email protected] hadoop]# cd /usr/local/hadoop/
- [[email protected] hadoop]# ./bin/hdfs namenode -format //格式化 namenode
- [[email protected] hadoop]# ./sbin/start-dfs.sh //启动
- [[email protected] hadoop]# jps //验证角色
- 23408 NameNode
- 23700 Jps
- 23591 SecondaryNameNode
- [[email protected] hadoop]# ./bin/hdfs dfsadmin -report //查看集群是否组建成功
- Live datanodes (3): //有三个角色成功
大数据-玩转数据-hadoop集群搭建和简单应用
大数据-玩转数据-Hadoop集群搭建和简单应用目录•概念了解•集群服务器规划•软件安装步骤概述•Hadoop安装o1、规划o2、上传解压缩o3、修改配置文件o4、把安装包分别分发给其他的节点o5、配置Hadoop环境变量o6、查看hadoop版本o7... 查看详情
大数据入门-三分钟读懂hadoop
最近在收集整理大数据入门文章,各位盆友关注点赞不迷路,每天都要开心鸭!大数据入门系列文章1.大数据入门-大数据是什么1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)2.大数据入门-大数据技术概... 查看详情
大数据之hadoop图解概述(代码片段)
文章目录🌹0写在开头☕1Hadoop是什么🚀2Hadoop发展历史(了解)💒3Hadoop三大发行版本(了解)🍎①ApacheHadoop(常用)🍏②ClouderaHadoop🍇③HortonworksHadoop☔️ 查看详情
一文带你了解大数据技术之hadoop(代码片段)
...概述5.3MapReduce架构概述5.4HDFS、YARN、MapReduce三者关系6.大数据技术生态体系7.推荐系统框架 查看详情
大数据—hadoop(入门篇一)(代码片段)
...e基金会所开发的分布式系统基础架构主要解决,海量数据的存储和海量数据的分析计算问题广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈高可靠性:Hadoo 查看详情
大数据技术之hadoop(mapreduce)概述序列化(代码片段)
...1.3MapReduce核心思想1.4MapReduce进程1.5官方WordCount源码1.6常用数据序列化类型1.7MapReduce编程规范1.8WordCount案例实操1.8.1本地测试1.8.2提交到集群测试2Hadoop序列化2.1序列化概述2.2自定义bean对象实现序列化接口( 查看详情
hadoop概述
...会所开发的分布式系统基础架构,Hadoop是一个适合大数据的分布式存储和计算平台主要解决,海量数据的存储和海量数据的分析计算问题官网对其的介绍如下:The 查看详情
hadoop——hadoop优势组成大数据技术生态体系系统框架图
...述1.5.3MapReduce架构概述1.5.4HDFS、YARN、MapReduce三者关系1.6大数据技术生态体系1.7推荐系统框架图1.4Hadoop优势(4高)1)高可靠性 查看详情
大数据平台,hadoop集群架构,概述及原理
目录一,大数据平台架构概述1,大数据概念2,大数据的特征3,大数据的处理流程和相关技术4,大数据平台架构的特点5,大数据平台架构原理二,Hadoop集群概述1,HDFS2,MapReduce3,YARN三... 查看详情
hadoop技术栈之apachehadoop概述
Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架,可以处理海量规模的数据。下面就带大家一起来开始学Spark!▼往期内容汇总:大数据导论Linux操作系统概述VMwareWorkstation虚拟机使用Linux常... 查看详情
hadoop之初识大数据与hadoop转载
...blogs.com/zhangyinhua/p/7647334.html阅读目录(Content)一、引言(大数据时代)1.1、从数据中得到信息1.2、大数据表象概念二、大数据基础2.1、什么是大数据?2.2、大数据的基本特征2.3、大数据的意义2.4、大数据的系统架构(整体架构)2.5... 查看详情
大数据hadoop|mapredece|yarn(代码片段)
文章目录大数据时代HadoopHadoop概述Hadoop特性优点Hadoop国内外应用Hadoop发行版本Hadoop集群整体概述HDFS分布式文件系统传统常见的文件系统数据和元数据HDFS核心属性HDFS简介HDFSshell操作MapReduce分而治之理解MapReduce思想分布式计算概念... 查看详情
hadoop之数据仓库概述
...实习过程中发现了自己的不足,今天我们就来讲一讲数据仓库的建设(大厂数据开发实习)有很完整的数仓体系,所以这方面的知识是需要进行系统学习的。有必要说明,本文是在流行的大数据分布式存储和... 查看详情
大数据技术之hadoop(hdfs)概述shell操作api操作读写流程工作机制(代码片段)
文章目录1HDFS概述1.1HDFS产生背景及定义1.2HDFS优缺点1.3HDFS组成架构1.4HDFS文件块大小(面试重点)2HDFS的Shell操作(开发重点)2.1基本语法2.2命令大全2.3常用命令实操3HDFS的API操作3.1客户端环境准备3.2HDFS的API案例实操... 查看详情
hadoop技术之apachehadoop集群搭建
Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架,可以处理海量规模的数据。下面就带大家一起来开始学Spark!▼往期内容汇总:大数据导论Linux操作系统概述VMwareWorkstation虚拟机使用Linux... 查看详情
大数据开发hadoop工程师-第一课java基本知识和jdk的安装配置
Java概述Java的版本Java为消费类智能电子产品而设计,但智能家电产品并没有像最初想象的那样拥有大的发展。跨平台是Java语言的核心优势,赶上最初互联网的发展,并随着互联网的发展而发展,建立了强大的生态体系,目前已... 查看详情
大数据技术与架构——大数据处理架构hadoop(上)
文章目录1.Hadoop概述1.1Hadoop简介1.2Hadoop发展简史1.3Hadoop的特性1.4Hadoop的应用现状1.5ApacheHadoop版本演变1.6Hadoop各种版本(企业开发产品)2.Hadoop项目结构1.Hadoop概述1.1Hadoop简介Hadoop是Apache[ә’pætʃi]软件基金会旗下的一个开源... 查看详情
hadoop之初识大数据与hadoop
前言 从今天起,我将一步一步的分享大数据相关的知识,其实很多程序员感觉大数据很难学,其实并不是你想象的这样,只要自己想学,还有什么难得呢? 学习Hadoop有一个8020原则,80%都是在不断的配置配置搭建集群,... 查看详情