正文

大数据讲课笔记2.3初探hadoop世界

howard2005  howard2005  2022-10-23  123

关键词：

文章目录

零、学习目标
一、导入新课
二、新课讲解
三、归纳总结
四、上机操作

零、学习目标

了解Hadoop的发展历史
了解Hadoop的版本情况
掌握Hadoop的生态体系

一、导入新课

上次课，主要讲解了大数据的应用场景，大数据应用在各个行业。Hadoop作为一个能够对大量数据进行分布式处理的框架，用户可以利用Hadoop开发和处理海量数据。本次课将针对Hadoop的基本概念、优势与生态体系进行详细讲解。

二、新课讲解

（一）Hadoop的前世今生

1、Google处理大数据三大技术

随着数据的快速增长，数据的存储和分析都变的越来越困难。例如存储容量、读写速度、计算效率等都无法满足用户的需求。为了解决这些问题，Google提出了三个处理大数据的技术手段。

技术	说明
MapReduce	Google的MapReduce开源分布式并行计算框架
BigTable	Google的大型分布式数据库
GFS	Google的分布式文件系统

三大革命性技术的优点
（1）成本降低、能用PC机，就不用大型机和高端存储。
（2）软件容错硬件故障视为常态，通过软件保证可靠性。
（3）简化并行分布式计算，无须控制节点同步和数据交换。

2、Hadoop如何诞生

在2003至2004年，Google陆续公布了部分GFS和MapReduce思想的细节，Nutch的创始人Doug Cutting受到启发，用了若干年时间实现了DFS和MapReduce机制，使Nutch性能飙升。
2005年，Hadoop作为Lucene子项目Nutch的一部分正式被引入Apache基金会，随后又从Nutch中剥离，成为一套完整独立的软件，起名为Hadoop。据说，Hadoop这个名字来源于创始人Doug Cutting儿子的毛绒玩具大象，因此，Hadoop的Logo形象如下图。

3、Hadoop主要发展历程

随着开源社区的不断发展，越来越多的优秀项目被开源，以处理各种大数据场景下的问题和挑战。作为目前大数据生态系统内的早期开源项目，Hadoop在廉价机器上实现了分布式数据存储和高性能分布式计算，大大降低了数据存储和计算成本。Hadoop提供的分布式存储系统HDFS、大数据集并行计算编程模型MapReduce、资源调度框架YARN已经被广泛应用，为大数据生态系统的发展奠定了坚实的基础。如今，Hadoop大数据生态圈发展已经非常全面，涉及领域众多，在大数据处理系统中常用的技术框架包括数据采集、数据存储、数据分析、数据挖掘、批处理、实时流计算、数据可视化、监控预警、信息安全等。
下面我们回顾一下近10年来Hadoop的主要发展历程。

时间	事件
2008年1月	Hadoop成为Apache顶级项目。
2008年6月	Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。
2009年7月	MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。
2009年7月	Avro 和 Chukwa 成为Hadoop新的子项目。
2010年5月	Avro脱离Hadoop项目，成为Apache顶级项目。
2010年5月	HBase脱离Hadoop项目，成为Apache顶级项目。
2010年9月	Hive脱离Hadoop，成为Apache顶级项目。
2010年9月	Pig脱离Hadoop，成为Apache顶级项目。
2010年-2011年	扩大的Hadoop社区忙于建立大量的新组件（Crunch，Sqoop，Flume，Oozie等）来扩展Hadoop的使用场景和可用性。
2011年1月	ZooKeeper 脱离Hadoop，成为Apache顶级项目。
2011年12月	Hadoop1.0.0版本发布，标志着Hadoop已经初具生产规模。
2012年5月	Hadoop 2.0.0-alpha版本发布，这是Hadoop-2.x系列中第一个（alpha）版本。与之前的Hadoop-1.x系列相比，Hadoop-2.x版本中加入了YARN，YARN成为了Hadoop的子项目。
2012年10月	Impala加入Hadoop生态圈。
2013年10月	Hadoop2.0.0版本发布，标志着Hadoop正式进入MapReduce v2.0时代。
2014年2月	Spark开始代替MapReduce成为Hadoop的默认执行引擎，并成为Apache顶级项目。
2017年12月	继Hadoop3.0.0的四个Alpha版本和一个Beta版本后，第一个可用的Hadoop 3.0.0版本发布。

（二）Hadoop的优势

Hadoop作为大数据中常见的分布式计算平台，能够处理海量数据，并对数据进行分析。经过十几年的发展，Hadoop已经形成了以下几点优势。

1、扩容能力强

Hadoop是一个高度可扩展的存储平台，它可以存储和分发跨越数百个并行操作的廉价的服务器数据集群。不同于传统的关系型数据库不能扩展到处理大量的数据，Hadoop是能给企业提供涉及成百上千TB的数据节点上运行的应用程序。

2、成本低

Hadoop为企业用户提供了极具缩减成本的存储解决方案。通过普通廉价的机器组成服务器集群来分发处理数据，成本比较低，普通用户也很容易在自己的PC机上搭建Hadoop运行环境。

3、高效率

Hadoop能够并发处理数据，并且能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理数据的速度是非常快的。

4、可靠性

Hadoop自动维护多份数据副本，假设计算任务失败，Hadoop能够针对失败的节点重新分布处理。

5、高容错性

Hadoop的一个关键优势就是容错能力强，当数据被发送到一个单独的节点，该数据也被复制到集群的其他节点上，这意味着故障发生时，存在另一个副本可供使用。

（三）Hadoop的生态体系

随着Hadoop的不断发展，Hadoop生态体系越来越完善，现如今已经发展成一个庞大的生态体系。

1、HDFS分布式文件系统

HDFS是Hadoop的分布式文件系统。是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型，通过流式数据访问，提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序。

2、MapReduce分布式计算框架

MapReduce是一种分布式计算框架，用以进行大数据量的计算。其中Map对数据集上的独立元素进行指定的操作，生成键-值对形式中间结果。Reduce则对中间结果中相同“键”的所有“值”进行规约，以得到最终结果。MapReduce这样的功能划分，非常适合在大量计算机组成的分布式并行环境里进行数据处理。

3、Yarn资源管理框架

YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

4、Sqoop数据迁移工具

数据同步工具Sqoop是SQL-to-Hadoop的缩写，主要用于传统数据库和Hadoop之前传输数据。数据的导入和导出本质上是Mapreduce程序，充分利用了MR的并行化和容错性。

5、Mahout数据挖掘算法库

数据挖掘算法库Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或Cassandra）集成等数据挖掘支持架构。

6、HBase分布式存储系统

HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成。HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。

7、ZooKeeper分布式协作服务

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和HBase的重要组件。

8、Hive数据仓库

Hive是基于Hadoop的一个分布式数据仓库工具，可以将结构化的数据文件映射为一张数据库表，将SQL语句转换为MapReduce任务进行运行。

9、Flume日志收集工具

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

10、Spark计算框架

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab开源的类Hadoop MapReduce的通用并行框架，拥有MapReduce所具有的优点；但是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

11、Tez计算框架

Tez 是 Apache 最新的支持 DAG 作业的开源计算框架。它允许开发者为最终用户构建性能更快、扩展性更好的应用程序。Hadoop传统上是一个大量数据批处理平台。但是，有很多用例需要近乎实时的查询处理性能。还有一些工作则不太适合MapReduce，例如机器学习。Tez的目的就是帮助Hadoop处理这些用例场景。

12、Ambari管理工具

Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase、Zookeepr、Sqoop和Hcatalog等的集中管理，它也是5个顶级Hadoop管理工具之一。

13、Avro™序列化系统

数据序列化工具Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。它的主要特点：支持二进制序列化方式，可以便捷快速地处理大量数据；动态语言友好，Avro提供的机制使动态语言可以方便地处理Avro数据。

14、Cassandra数据库系统

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身，Facebook于2008将 Cassandra 开源。

15、Chukwa数据收集系统

Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在 Hadoop 的 HDFS 和MapReduce框架之上的，继承了Hadoop 的可伸缩性和健壮性。Chukwa 还包含了一个强大和灵活的工具集，可用于展示、监控和分析已收集的数据。

16、Pig数据流系统

Pig是基于Hadoop的数据流系统，由yahoo!开源，设计动机是提供一种基于MapReduce的ad-hoc(计算在query时发生)数据分析工具。定义了一种数据流语言—Pig Latin，将脚本转换为MapReduce任务在Hadoop上执行。通常用于进行离线分析。

17、Kafka消息系统

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消费。

18、Oozie作业流调度引擎

作业流调度引擎Oozie是一个基于工作流引擎的服务器，可以在上面运行Hadoop的Map Reduce和Pig任务。它其实就是一个运行在Java Servlet容器（比如Tomcat）中的Javas Web应用。

19、Storm流处理框架

Storm是Twitter开源的分布式实时大数据处理框架，最早开源于github，从0.9.1版本之后，归于Apache社区，被业界称为实时版Hadoop。随着越来越多的场景对Hadoop的MapReduce高延迟无法容忍，比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等，大数据实时处理解决方案（流计算）的应用日趋广泛，目前已是分布式技术领域最新爆发点，而Storm更是流计算技术中的佼佼者和主流。

20、Flink实时处理框架

Flink是一个针对流数据和批数据的分布式处理引擎。其所要处理的主要场景就是流数据，批数据只是流数据的一个极限特例而已。再换句话说，Flink 会把所有任务当成流来处理，这也是其最大的特点。Flink 可以支持本地的快速迭代，以及一些环形的迭代任务。并且 Flink 可以定制化内存管理。在这点，如果要对比 Flink 和 Spark 的话，Flink 并没有将内存完全交给应用层。这也是为什么 Spark 相对于 Flink，更容易出现 OOM 的原因（out of memory）。

（四）Hadoop的版本情况

1、Hadoop发行版

Hadoop发行版本分为开源社区版和商业版。社区版是指由Apache软件基金会维护的版本，是官方维护的版本体系。商业版Hadoop是指由第三方商业公司在社区版Hadoop基础上进行了一些修改、整合以及各个服务组件兼容性测试而发行的版本。

（1）Apache Hadoop

官网链接：https://hadoop.apache.org

（2）Cloudera Hadoop

官网链接：https://www.cloudera.com/downloads/cdh

（3）Hortonworks Hadoop

2018年10月，均为开源平台的Cloudera与Hortonworks公司宣布他们以52亿美元的价格合并。如今就没有Hortonworks Hadoop的官网链接了。

2、Hadoop版本升级

Hadoop自诞生以来，主要分为Hadoop1、Hadoop2、Hadoop3三个系列的多个版本，目前市场上最主流的是Hadoop2.x版本。Hadoop2.x版本指的是第2代Hadoop，它是从Hadoop1.x发展而来的，并且相对于Hadoop1.x来说，有很多改进。Hadoop1.x内核主要由分布式存储系统HDFS和分布式计算框架MapReduce两个系统组成，而Hadoop2.x版本主要新增了资源管理框架Yarn以及其他工作机制的改变。

（1）Hadoop1.x

Hadoop1.x时期架构

（2）Hadoop2.x

Hadoop2.x时期架构

（3）Hadoop3.x

Hadoop3.x是基于JDK1.8开发的，较其他两个版本而言，在功能和优化方面发生了很大的变化，其中包括HDFS 可擦除编码、多Namenode支持、MR Native Task优化等。
据Apache hadoop 的最新消息，Hadoop3.x将会调整方案架构，将Mapreduce 基于内存+IO+磁盘，共同处理数据。其中，在Hadoop3.x中改变最大的是HDFS，它通过最近Block块进行计算，根据最近计算原则，将本地Block块加入到内存，先计算，然后通过IO，共享内存计算区域，最后快速形成计算结果，其计算速度比Spark快10倍。

三、归纳总结

回顾本节课所讲的内容，并通过提问的方式引导学生解答问题并给予指导。

四、上机操作

形式：单独完成
题目：掌握Hadoop的生态体系与版本情况
要求：根据讲课笔记给出的提纲，上网收集资料，对于Hadoop的前世今生与生态体系有更深入的了解，并利用XMind绘制思维导图。

2022年大数据讲课笔记

一、讲课笔记项目一、Linux基础大数据讲课笔记1.1安装配置CentOS[在OpenStack私有云上安装配置虚拟机]大数据讲课笔记1.2Linux用户操作大数据讲课笔记1.3Linux目录操作大数据讲课笔记1.4进程管理大数据讲课笔记1.5使用Vim编辑器大数据... 查看详情

2022年大数据基础讲课笔记

大数据讲课笔记3.1hadoop安装准备(代码片段)

文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop集群拓扑1、集群拓扑2、角色分配（二）虚拟机安装（三）虚拟机克隆1、克隆类型（1）完整克隆（2）链接克隆2、克隆步骤（... 查看详情

大数据讲课笔记2.1初探大数据(代码片段)

...目标一、导入新课二、新课讲解（一）什么是大数据（二）大数据的特征1、数据体量大2、数据类型多3、处理速度快4、价值密度低（三）研究大数据的意义（四）拥抱大数据时代1、第三次信息化浪... 查看详情

大数据讲课笔记2.1初探大数据(代码片段)

大数据讲课笔记3.3hadoop集群配置(代码片段)

文章目录零、学习目标一、导入新课二、新课讲解（一）配置Hadoop集群1、在master虚拟机上配置hadoop（1）编辑Hadoop环境配置文件-hadoop-env.sh（2）编辑Hadoop核心配置文件-core-site.xml（3）编辑HDFS配置文... 查看详情

大数据讲课笔记3.3hadoop集群配置(代码片段)

大数据讲课笔记3.4hadoop集群测试(代码片段)

文章目录零、学习目标一、导入新课二、新课讲解（一）通过UI界面查看Hadoop运行状态1、hadoop2和hadoop3端口区别表2、查看HDFS集群状态3、查看YARN集群状态（二）Hadoop集群初体验——词频统计1、启动Hadoop集群2、在... 查看详情

大数据讲课笔记3.4hadoop集群测试(代码片段)

大数据讲课笔记3.2hadoop部署模式(代码片段)

文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop部署模式1、独立模式2、伪分布式模式3、完全分布式模式（二）Hadoop集群规划1、集群拓扑2、角色分配（三）JDK安装与配置1、下载JDK压缩包2、... 查看详情

大数据讲课笔记3.2hadoop部署模式(代码片段)

java讲课笔记36：初探反射机制

文章目录零、本讲学习目标一、认识反射（一）Java反射机制（二）Java反射的动态性质（三）如何理解Java反射的原理（四）利用反射可实现的功能二、Java反射常用API三、使用反射的基本步骤四、利用反射获取类的信息（一）获... 查看详情

安卓讲课笔记2.3窗口跳转与传递数据(代码片段)

文章目录零、学习目标一、导入新课二、新课讲解（一）三个基本控件1、标签控件（TextView）2、编辑框控件（EditText）3、按钮控件（Button）（二）安卓事件处理机制1、安卓事件处理概述2、... 查看详情

java讲课笔记35：初探泛型

文章目录零、本讲学习目标一、泛型的概念二、泛型的好处（一）提高程序类型安全（二）消除强制类型转换三、案例演示泛型使用（一）类使用泛型（二）构造方法使用泛型（三）设置多个泛型（四）使用通配符（五）使用泛... 查看详情

学习笔记hadoop——hadoop介绍

文章目录一、认识大数据1.1、认识大数据1.2、大数据特征1.3、大数据流程图1.4、什么是大数据平台？二、Hadoop核心组件2.1、ApacheHadoop简介2.2、主要模块2.3、Hadoop分布式文件系统-HDFS2.4、Hadoop任务调度和资源管理框架-YARN2.5、Had... 查看详情

大数据讲课笔记2.2大数据应用场景

...、学习目标一、导入新课二、新课讲解（一）大数据在医疗行业的应用1、优化医疗方案，提供最佳治疗方法2、有效预防预测疾病（二）大数据在金融行业的应用1、精准营销2、风险管控3、决策支持4、服务创... 查看详情

weka学习笔记01：初探weka世界

...a命令行界面五、Weka探索器（一）探索器主界面（二）Weka数据格式1、三种声明（1）声明关系（2）声明属性（3）声明数据2、四种数据类型（1）数值型（numeric）查看详情