正文

大数据讲课笔记5.1初探mapreduce(代码片段)

howard2005  howard2005  2022-10-23  634

关键词：

文章目录

零、学习目标
一、导入新课
二、新课讲解
三、归纳总结
四、上机操作

零、学习目标

理解MapReduce核心思想
掌握MapReduce编程模型
理解MapReduce编程实例——词频统计

一、导入新课

带领学生回顾项目四HDFS相关的知识，由于MapReduce是Hadoop系统的另一个核心组件，它是一种可用于大数据并行处理的计算模型、框架和平台，主要解决海量数据的计算，是目前分布式计算模型中应用较为广泛的一种。因此，本次课将针对MapReduce分布式计算框架进行详细讲解。

二、新课讲解

（一）MapReduce核心思想

MapReduce的核心思想是“分而治之”。所谓“分而治之”就是把一个复杂的问题，按照一定的“分解”方法分为等价的规模较小的若干部分，然后逐个解决，分别找出各部分的结果，把各部分的结果组成整个问题的结果，这种思想来源于日常生活与工作时的经验，同样也完全适合技术领域。
MapReduce作为一种分布式计算模型，它主要用于解决海量数据的计算问题。使用MapReduce操作海量数据时，每个MapReduce程序被初始化为一个工作任务，每个工作任务可以分为Map和Reduce两个阶段。

阶段	功能
Map阶段	负责将任务分解，即把复杂的任务分解成若干个“简单的任务”来并行处理，但前提是这些任务没有必然的依赖关系，可以单独执行任务。
Reduce阶段	负责将任务合并，即把Map阶段的结果进行全局汇总。

MapReduce就是“任务的分解与结果的汇总”。即使用户不懂分布式计算框架的内部运行机制，但是只要能用Map和Reduce思想描述清楚要处理的问题，就能轻松地在Hadoop集群上实现分布式计算功能。
MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。

（二）MapReduce编程模型

MapReduce是一种编程模型，用于处理大规模数据集的并行运算。使用MapReduce执行计算任务的时候，每个任务的执行过程都会被分为两个阶段，分别是Map和Reduce，其中Map阶段用于对原始数据进行处理，Reduce阶段用于对Map阶段的结果进行汇总，得到最终结果。
Map和Reduce函数
问题1：100副牌，没有大小王，差一张牌，请确定缺少哪张牌？
问题2：100GB网站访问日志文件，找出访问次数最多的IP地址

（三）MapReduce编程实例——词频统计

1、词频统计设计思路

（1）Map阶段

（2）Reduce阶段

2、词频统计实现步骤

（1）创建Maven项目

创建Maven项目 - MRWordCount
单击【Finish】按钮

（2）创建待词频统计文件

在项目根目录创建文本文件 - words.txt

（3）上传文件到HDFS指定目录

启动集群HDFS服务
在HDFS上创建/wordcount目录，并将words.txt上传到该目录

（4）添加相关依赖

在pom.xml文件里添加hadoop和junit依赖

<dependencies>                                   
    <dependency>                                 
        <groupId>org.apache.hadoop</groupId>     
        <artifactId>hadoop-client</artifactId>   
        <version>3.3.4</version>                
    </dependency>                                
    <dependency>                                 
        <groupId>junit</groupId>                 
        <artifactId>junit</artifactId>           
        <version>4.13.2</version>                  
    </dependency>                                
</dependencies>

（5）创建日志属性文件

在resources目录里创建log4j.properties文件

log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/wordcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

（6）创建词频统计映射器类

创建net.hw.mr包，在包里创建WordCountMapper类
为了更好理解Mapper类的作用，在map()函数里暂时不进行每行文本分词处理，直接利用context输出key和value。

package net.hw.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 功能：词频统计映射器类
 * 作者：华卫
 * 日期：2022年10月09日
 */
public class WordCountMapper extends Mapper<LongWritable, Text, LongWritable, Text> 
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException 
        context.write(key, value);

Mapper<泛型参数1, 泛型参数2, 泛型参数3, 泛型参数4>参数说明

参数	说明
泛型参数1	输入键类型（InputKeyClass）
泛型参数2	输入值类型（InputValueClass）
泛型参数3	输出键类型（OutputKeyClass）
泛型参数4	输出值类型（OutputValueClass）

（7）创建词频统计驱动器类

在net.hw.mr包里创建WordCountDriver类

package net.hw.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 功能：词频统计驱动器类
 * 作者：华卫
 * 日期：2022年10月09日
 */
public class WordCountDriver 
    public static void main(String[] args) throws Exception 
        // 创建配置对象
        Configuration conf = new Configuration();
        // 获取作业实例
        Job job = Job.getInstance(conf);

        // 设置作业启动类
        job.setJarByClass(WordCountDriver.class);

        // 设置Mapper类
        job.setMapperClass(WordCountMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(LongWritable.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(Text.class);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/wordcount");
        // 创建输出目录
        Path outputPath = new Path(uri + "/wordcount/result");

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录
        fs.delete(outputPath, true);

        // 给作业添加输入目录
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) 
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);

注意导包问题
不要导成org.apache.hadoop.mapred包下的FileInputFormat与FileOutputFormat咯~

import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;

（8）启动集群YARN服务

在主节点上执行命令：start-yarn.sh

（9）启动词频统计驱动器类，看看结果

运行WordCountDriver类，报错找不到winutils.exe文件
- 解决办法：下载对应版本的winutils.exe和hadoop.dll，放在hadoop安装目录的bin子目录里
https://github.com/cdarlint/winutils/blob/master/hadoop-3.2.2/bin/winutils.exe
https://github.com/cdarlint/winutils/blob/master/hadoop-3.2.2/bin/hadoop.dll
配置环境变量

环境变量	值
HADOOP_HOME	D:\\hadoop-3.3.4
HADOOP_USER_NAME	root
Path	%HADOOP_HOME%\\bin;

此时，运行程序，就没有问题了
说明：一个切片，对应一个map任务。
如果不想看到统计结果之前的大堆信息，可以修改log4j.properties文件，将INFO改为ERROR
再运行程序，查看结果
行首数字，表示每行起始位置在整个文件的偏移量（offset）。
第一行：Hello World Bye World\\r\\n 18个字母，3个空格，2个转义字符，总共23个字符，因此，第二行起始位置在整个文件的偏移量就是23。
第二行：Hello Hadoop Bye Hadoop\\r\\n 20个字母，3个空格，2个转义字符，总共25个字符，因此，第三行起始位置在整个文件的偏移量就是23 + 25 = 48。
其实，行首数字对于我们做单词统计没有任何用处，只需要拿到每一行内容，按空格拆分成单词，每个单词计数1，因此，WordCoutMapper的输出应该是单词和个数，于是，输出键类型为Text，输出值类型为IntWritable。
利用HDFS集群WebUI界面查看结果文件

（10）修改词频统计映射器类

将每行按空格拆分成单词数组，输出单词 1的键值对

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> 
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException 
        // 获取行内容
        String line = value.toString();
        // 按空格拆分得到单词数组
        String[] words = line.split(" ");
        // 遍历单词数组，生成输出键值对
        for (int i = 0; i < words.length; i++) 
            context.write(new Text(words[i]), new IntWritable(1));

由于WordCountMapper的输出键值类型发生变化，所以必须告诉WordCountDriver。

（11）修改词频统计驱动器类

修改map任务输出键值类型

（12）启动词频统计驱动器类，查看结果

观察输出结果，map阶段会按键排序输出
对于这样一组键值对，我们需要Reducer组件来进行归并处理，结果如下所示

Bye 3
Hadoop 4
Hello 3
World 2

映射任务与归并任务示意图

（13）创建词频统计归并器类

一个类继承Reducer，变成一个Reducer组件类
Reducer组件会接收Mapper组件的输出结果
第一个泛型对应的是Mapper输出key类型，第二个泛型对应的是Mapper输出value类型
第三个泛型和第四个泛型是Reducer的输出key类型和输出value类型
Reducer组件不能单独存在，但是Mapper组件可以单独存在
当引入Reducer组件后，输出结果文件内容就是Reducer的输出key和输出value

在net.hw.mr包里创建WordCountReducer类

package net.hw.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 功能：词频统计归并器类
 * 作者：华卫
 * 日期：2022年10月09日
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> 
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException 
        // 定义输出键出现次数
        int count = 0;
        // 遍历输出值迭代对象，统计其出现次数
        for (IntWritable value : values) 
            count = count + value.get();
        
        // 生成键值对输出
        context.write(key, new IntWritable(count));

由于引入了词频统计归并器，必须在词频统计驱动器类里进行设置

（14）修改词频统计驱动器类

设置WordCountReducer，并且设置归并任务的输出键值类型

// 设置Reducer类                                  
job.setReducerClass(WordCountReducer.class);   
// 设置reduce任务输出键类型                             
job.setOutputKeyClass(Text.class);             
// 设置reduce任务输出值类型                             
job.setOutputValueClass(IntWritable.class);

（15）启动词频统计驱动器类，查看结果

统计出每个单词出现的次数

知识点学习

（1）MR框架有两个核心组件，分别是Mapper组件和Reducer组件
（2）写一个类，继承Mapper，则变成了一个Mapper组件类
（3）LongWritable，Text（String)，IntWritable，NullWritable都是Hadoop序列化类型
（4）Mapper组件将每行的行首偏移量，作为输入key，通过map()传给程序员
（5）Mapper组件会将每行内容，作为输入value，通过map()传给程序员，重点是获取输入value
（6）Mapper的第一个泛型类型对应的是输入key的类型，第二个泛型类型对应的输入value（在初学阶段，第一个和第二个类型写死）
（7）MR框架所处理的文件必须是在HDFS上的
（8）map()被调用几次，取决于文件的行数
（9）通过context进行结果的输出，以输出key和输出value的形式来输出
（10）输出key是由第三个泛型类型决定，输出value是由第四个泛型类型决定
（11）输出结果文件的数据以及行数取决于context.write
（12）Text=>String:  value.toString()
（13）String=>Text:  new Text(string var)
（14）LongWritable=>long:  key.get()
（15）long=>LongWritable: new LongWritable(long var)

（16）采用多个Reduce做合并

相同key的键值对必须发送同一分区（一个Reduce任务对应一个分区，然后会生成对应的一个结果文件，有多少个Reduce任务，就会有多少个分区，最终就会产生多少个结果文件），否则同一个key最终会出现在不同的结果文件中，那显然不是我们希望看到的结果。

A. MR默认采用哈希分区HashPartitioner

Mapper输出key.hashcode & Integer.MAX_ VALUE % Reduce任务数量

B. 修改词频统计驱动器类，设置分区数量

设置分区数量：3
此时，运行程序，查看结果
可以看到，产生了三个结果文件

（17）将三个类合并成一个类完成词频统计

在net.hw.mr包里创建WordCount类

package net.hw.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;
import java.net.URI;

/**
 * 功能：词频统计
 * 作者：华卫
 * 日期：2022年10月09日
 */
public class WordCount extends Configured implements Tool 

    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> 
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException大数据讲课笔记5.4mapreduce运行模式(代码片段)
...零、学习目标一、导入新课二、新课讲解（一）MapReduce运行模式1、本地运行模式2、集群运行模式（二）MapReduce性能优化策略1、数据输入2、Map阶段3、Reduce阶段4、Shuffle阶段5、其它调优属性三、归纳总结四、上机...  查看详情  
                
大数据讲课笔记5.5mapreduce经典案例——倒排索引(代码片段)
...现倒排索引一、导入新课通过上节课的学习，我们对MapReduce运行模  查看详情  
                
大数据讲课笔记2.1初探大数据(代码片段)
...目标一、导入新课二、新课讲解（一）什么是大数据（二）大数据的特征1、数据体量大2、数据类型多3、处理速度快4、价值密度低（三）研究大数据的意义（四）拥抱大数据时代1、第三次信息化浪...  查看详情  
                
大数据讲课笔记2.1初探大数据(代码片段)
...目标一、导入新课二、新课讲解（一）什么是大数据（二）大数据的特征1、数据体量大2、数据类型多3、处理速度快4、价值密度低（三）研究大数据的意义（四）拥抱大数据时代1、第三次信息化浪...  查看详情  
                
大数据讲课笔记5.6mr案例—数据去重(代码片段)
...据去重一、导入新课通过上节课的学习，我们熟悉了MapReduce经典案例——倒序索引的具  查看详情  
                
大数据讲课笔记5.7mr案例—topn(代码片段)
...N分析法一、导入新课通过上节课的学习，我们熟悉了MapReduce经典案  查看详情  
                
2022年大数据讲课笔记
一、讲课笔记项目一、Linux基础大数据讲课笔记1.1安装配置CentOS[在OpenStack私有云上安装配置虚拟机]大数据讲课笔记1.2Linux用户操作大数据讲课笔记1.3Linux目录操作大数据讲课笔记1.4进程管理大数据讲课笔记1.5使用Vim编辑器大数据...  查看详情  
                
2022年大数据基础讲课笔记
一、讲课笔记项目一、Linux基础大数据讲课笔记1.1安装配置CentOS[在OpenStack私有云上安装配置虚拟机]大数据讲课笔记1.2Linux用户操作大数据讲课笔记1.3Linux目录操作大数据讲课笔记1.4进程管理大数据讲课笔记1.5使用Vim编辑器大数据...  查看详情  
                
2022年大数据基础讲课笔记
一、讲课笔记项目一、Linux基础大数据讲课笔记1.1安装配置CentOS[在OpenStack私有云上安装配置虚拟机]大数据讲课笔记1.2Linux用户操作大数据讲课笔记1.3Linux目录操作大数据讲课笔记1.4进程管理大数据讲课笔记1.5使用Vim编辑器大数据...  查看详情  
                
安卓讲课笔记5.1标签(代码片段)
文章目录零、学习目标一、导入新课二、新课讲解（一）继承关系图（二）标签常用属性（三）教学案例：标签演示1、创建安卓应用2、字符串资源文件3、自定义边框配置文件4、主布局资源文件5、主...  查看详情  
                
大数据讲课笔记4.1hdfs基本概念(代码片段)
文章目录零、学习目标一、导入新课二、新课讲解（一）HFDS的演变（二）HDFS的基本概念1、NameNode（名称节点）2、DataNode（数据节点）3、Block（数据块）4、Rack（机架）5、Metadata（  查看详情  
                
大数据讲课笔记1.4进程管理(代码片段)
文章目录零、学习目标一、导入新课二、新课讲解（一）进程概述1、基本概念2、三维度看待进程3、引入多进程模型4、进程的产生和消亡（1）进程的产生（2）进程的消亡5、进程三种状态6、进程ID（PID...  查看详情  
                
大数据讲课笔记1.8shell基础(代码片段)
文章目录零、学习目标一、导入新课二、新课讲解（一）shell概述1、了解shell的含义2、Linux中shell存在形式3、shell如何执行用户指令（二）常用shell命令1、管道命令（1）命令概述（2）命令格式（...  查看详情  
                
大数据讲课笔记6.2zookeeper数据模型(代码片段)
...零、学习目标一、导入新课二、新课讲解（一）数据存储结构（二）Znode的类型1、临时节点2、永久节点（三）Znode的属性三、归纳总结四、上机操作零、学习目标理解ZK数据存储结构了解Znode的类型和属性...  查看详情  
                
大数据讲课笔记1.6压缩与打包(代码片段)
文章目录零、学习目标一、导入新课二、新课讲解（一）压缩与打包1、压缩2、打包3、压缩或打包文件常见扩展名（二）gzip命令1、命令作用2、选项参数3、实战练习任务1、压缩文件任务2、解压文件（三）...  查看详情  
                
大数据讲课笔记3.1hadoop安装准备(代码片段)
文章目录零、学习目标一、导入新课二、新课讲解（一）Hadoop集群拓扑1、集群拓扑2、角色分配（二）虚拟机安装（三）虚拟机克隆1、克隆类型（1）完整克隆（2）链接克隆2、克隆步骤（...  查看详情  
                
java讲课笔记36：初探反射机制
文章目录零、本讲学习目标一、认识反射（一）Java反射机制（二）Java反射的动态性质（三）如何理解Java反射的原理（四）利用反射可实现的功能二、Java反射常用API三、使用反射的基本步骤四、利用反射获取类的信息（一）获...  查看详情  
                
大数据讲课笔记1.2linux用户操作(代码片段)
文章目录零、学习目标一、导入新课二、新课讲解（一）用户账号管理1、用户与用户组文件2、用户账号管理工作（二）用户操作1、切换用户（1）语法格式（2）切换到普通用户（3）切换到r...  查看详情