正文

实验5mapreduce初级编程实践——对给定的表格进行信息挖掘(代码片段)

Z.Q.Fengᯤ⁵ᴳ  Z.Q.Fengᯤ⁵ᴳ  2023-02-17  561

关键词：

一、实验目的

通过实验掌握基本的MapReduce编程方法；
掌握用MapReduce解决一些常见的数据处理问题，包括数据去重、数据排序和数据挖掘等。

二、实验平台

操作系统：Linux（建议Ubuntu16.04或Ubuntu18.04）
Hadoop版本：3.1.3

三、实验内容

对给定的表格进行信息挖掘

下面给出一个child-parent的表格，要求挖掘其中的父子辈关系，给出祖孙辈关系的表格。

输入文件的内容如下：

child parent
Steven Lucy
Steven Jack
Jone Lucy
Jone Jack
Lucy Mary
Lucy Frank
Jack Alice
Jack Jesse
David Alice
David Jesse
Philip David
Philip Alma
Mark David
Mark Alma

根据输入文件 1、2 和 3 得到的输出文件C的样例如下：

grand_child	grand_parent
Mark	Jesse
Mark	Alice
Philip	Jesse
Philip	Alice
Jone	Jesse
Jone	Alice
Steven	Jesse
Steven	Alice
Steven	Frank
Steven	Mary
Jone	Frank
Jone	Mary

四、实验步骤

进入 Hadoop 安装目录，启动 hadoop：

cd /usr/local/hadoop
sbin/start-dfs.sh

新建文件夹，创建文件 child-parent：

sudo mkdir Pritice3 && cd Pritice3
sudo vim child-parent

编写 Java 文件实现 MapReduce：

sudo vim simple_data_mining.java

实现的 Java 代码如下：

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class simple_data_mining 
	public static int time = 0;

	/**
	 * @param args
	 * 输入一个child-parent的表格
	 * 输出一个体现grandchild-grandparent关系的表格
	 */
	//Map将输入文件按照空格分割成child和parent，然后正序输出一次作为右表，反序输出一次作为左表，需要注意的是在输出的value中必须加上左右表区别标志
	public static class Map extends Mapper<Object, Text, Text, Text>
		public void map(Object key, Text value, Context context) throws IOException,InterruptedException
			String child_name = new String();
			String parent_name = new String();
			String relation_type = new String();
			String line = value.toString();
			int i = 0;
			while(line.charAt(i) != ' ')
				i++;
			
			String[] values = line.substring(0,i),line.substring(i+1);
			if(values[0].compareTo("child") != 0)
				child_name = values[0];
				parent_name = values[1];
				relation_type = "1";//左右表区分标志
				context.write(new Text(values[1]), new Text(relation_type+"+"+child_name+"+"+parent_name));
				//左表
				relation_type = "2";
				context.write(new Text(values[0]), new Text(relation_type+"+"+child_name+"+"+parent_name));
				//右表
			
		
	
	
	public static class Reduce extends Reducer<Text, Text, Text, Text>
		public void reduce(Text key, Iterable<Text> values,Context context) throws IOException,InterruptedException
			if(time == 0)   //输出表头
				context.write(new Text("grand_child"), new Text("grand_parent"));
				time++;
			
			int grand_child_num = 0;
			String grand_child[] = new String[10];
			int grand_parent_num = 0;
			String grand_parent[]= new String[10];
			Iterator ite = values.iterator();
			while(ite.hasNext())
				String record = ite.next().toString();
				int len = record.length();
				int i = 2;
				if(len == 0) continue;
				char relation_type = record.charAt(0);
				String child_name = new String();
				String parent_name = new String();
				//获取value-list中value的child
				
				while(record.charAt(i) != '+')
					child_name = child_name + record.charAt(i);
					i++;
				
				i=i+1;
				//获取value-list中value的parent
				while(i<len)
					parent_name = parent_name+record.charAt(i);
					i++;
				
				//左表，取出child放入grand_child
				if(relation_type == '1')
					grand_child[grand_child_num] = child_name;
					grand_child_num++;
				
				else//右表，取出parent放入grand_parent
					grand_parent[grand_parent_num] = parent_name;
					grand_parent_num++;
				
			

			if(grand_parent_num != 0 && grand_child_num != 0 )
				for(int m = 0;m<grand_child_num;m++)
					for(int n=0;n<grand_parent_num;n++)
						context.write(new Text(grand_child[m]), new Text(grand_parent[n]));
						//输出结果
					
				
			
		
	
	public static void main(String[] args) throws Exception
		// TODO Auto-generated method stub
		Configuration conf = new Configuration();
		conf.set("fs.default.name","hdfs://localhost:9000");
		String[] otherArgs = new String[]"input","output"; /* 直接设置输入参数 */
		if (otherArgs.length != 2) 
			System.err.println("Usage: wordcount <in><out>");
			System.exit(2);
			
		Job job = Job.getInstance(conf,"Single table join");
		job.setJarByClass(simple_data_mining.class);
		job.setMapperClass(Map.class);
		job.setReducerClass(Reduce.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(Text.class);
		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);

赋予用户相关权限：

sudo chown -R hadoop /usr/local/hadoop

添加编译所需要使用的 jar 包：

vim ~/.bashrc

添加下面一行到文件的最后：

export HADOOP_HOME=/usr/local/hadoop
export CLASSPATH=$($HADOOP_HOME/bin/hadoop classpath):$CLASSPATH

使更改立即生效：

source ~/.bashrc

编译 simple_data_mining.java：

javac simple_data_mining.java

打包生成的 class 文件为 jar 包：

jar -cvf simple_data_mining.jar *.class

创建 Hadoop 主目录为 /user/hadoop 并创建 input 文件夹：

/usr/local/hadoop/bin/hdfs dfs -mkdir -p /user/hadoop
/usr/local/hadoop/bin/hdfs dfs -mkdir input

若 intput 已存在则删除原有文件：

/usr/local/hadoop/bin/hdfs dfs -rm input/*

上传文件 child-parent 到 input 文件夹中：

/usr/local/hadoop/bin/hdfs dfs -put ./child-parent input

使用之前确保 output 文件夹不存在：

/usr/local/hadoop/bin/hdfs dfs -rm -r output

使用我们刚生成的 simple_data_mining.jar 包：

/usr/local/hadoop/bin/hadoop jar simple_data_mining.jar simple_data_mining

查看输出结果：

/usr/local/hadoop/bin/hdfs dfs -cat output/*

输出如下：

hadoop@fzqs-Laptop:/usr/local/hadoop$ hdfs dfs -cat output/*
grand_child	grand_parent
Mark	Jesse
Mark	Alice
Philip	Jesse
Philip	Alice
Jone	Jesse
Jone	Alice
Steven	Jesse
Steven	Alice
Steven	Frank
Steven	Mary
Jone	Frank
Jone	Mary
hadoop@fzqs-Laptop:/usr/local/hadoop$

此外，有想用 Python 写的可以参考我这篇博客：实验5 MapReduce初级编程实践（Python实现）

实验5mapreduce初级编程实践——编写程序实现对输入文件的排序(代码片段)

一、实验目的通过实验掌握基本的MapReduce编程方法；掌握用MapReduce解决一些常见的数据处理问题，包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统：Linux（建议Ubuntu16.04或Ubuntu18.04）Hadoop版本ÿ... 查看详情

实验5mapreduce初级编程实践（python实现）(代码片段)

一、实验目的通过实验掌握基本的MapReduce编程方法；掌握用MapReduce解决一些常见数据处理问题的方法，包括数据合并、数据去重、数据排序和数据挖掘等。二、实验平台操作系统：Ubuntu18.04（或Ubuntu16.04）Hadoop... 查看详情

实验5mapreduce初级编程实践——编程实现文件合并和去重操作(代码片段)

rdd编程初级实践

RDD编程初级实践一、实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04Spark版本：2.4.0Python版本：3.4.3三、实验内... 查看详情

rdd编程初级实践（基于python）(代码片段)

RDD编程初级实践（基于python）1.实验目的2.实验环境3.实验数据3.1pyspark交互式编程（实验描述）3.2编写独立应用程序实现数据去重（实验描述）3.3编写独立应用程序实现求平均值问题（实验描述）3.4... 查看详情

rdd编程初级实践

实验5sparksql编程初级实践

SparkSQL基本操作 (1)查询所有数据； (2)查询所有数据，并去除重复的数据； (3)查询所有数据，打印时去除id字段； (4)筛选出age>30的记录； (5)将数据按age分组； (6)将数据按name升序排列； (7)取出前3行数... 查看详情

sparksql编程初级实践

今下午在课上没有将实验做完，课下进行了补充，最终完成。下面附上厦门大学数据库实验室中spark实验官网提供的标准答案，以供参考。三、实验内容和要求1．SparkSQL基本操作将下列json数据复制到你的ubuntu系统/usr/loca... 查看详情

第五周周二练习：实验5sparksql编程初级实践(代码片段)

1.题目：源码：importjava.util.Propertiesimportorg.apache.spark.sql.types._importorg.apache.spark.sql.Rowimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.DataFrameReaderobjectTestMySQLdefma 查看详情

实验4rdd编程初级实践

1．spark-shell交互式编程（1）该系总共有多少学生scala>vallines=sc.textFile("file:///usr/local/spark/sparklab/Data01.txt")lines:org.apache.spark.rdd.RDD[String]=file:///usr/local/spark/sparklab/Data01.txtMapPartitionsRDD[4]attextFileat<console>:24scala>valinfo=lines.map(ro... 查看详情

rdd编程初级实践(代码片段)

...Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……请根据给定的实验数据，在pyspark中通过编程来计算以下内容：（1）该系总共有多少学生；代码如下：lines=sc.textFile("file:///usr/local/spark/sparksqldata/data.txt")r... 查看详情

实验4rdd编程初级实践(代码片段)

注意：spark的编码格式是utf-8，其他的格式会有乱码，所以文件要使用utf-8编码pom.xml：<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.o... 查看详情

实验7spark初级编程实践(代码片段)

文章目录一、实验目的二、实验平台三、实验步骤1.准备工作（1）安装spark及其API程序（2）配置环境变量（3）启动Hadoop2.Spark读取文件系统的数据3.编写独立应用程序实现数据去重4.编写独立应用程序实现求... 查看详情

《移动项目实践》实验报告——初级控件(代码片段)

实验目的1、掌握Android屏幕显示与初级视图的相关知识；2、掌握包括屏幕显示基础、简单布局的用法、简单控件的用法、简单图形的用法实验内容以windows上的计算器为例，程序界面如下图所示：完成精简之后的Android... 查看详情

spark实验四

一、实验目的（1）熟悉Spark的RDD基本操作及键值对操作；（2）熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统：Ubuntu16.04Spark版本：2.1.0三、实验内容和要求1．spark-shell交互式编程请到本教程官网的“下载专... 查看详情

rdd编程初级实践(代码片段)

RDD编程初级实践一、pyspark交互式编程二、编写独立应用程序实现数据去重三、编写独立应用程序实现求平均值问题一、pyspark交互式编程本作业提供分析数据data.txt，该数据集包含了某大学计算机系的成绩，数据格式如下... 查看详情

sparksql编程初级实践

1．SparkSQL基本操作将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。{"id":1,"name":"Ella","age":36}{"id":2,"name":"Bob","age":29}{"id":3,"name":"Jack","age":29}{"id":4,"name":"Jim","age":28}{"id":4,"name":"Jim", 查看详情

sparksql编程初级实践

1．SparkSQL基本操作将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。"id":1,"name":"Ella","age":36"id":2,"name":"Bob","age":29"id":3,"name":"Jack","age":29"id":4,"name":"Jim","age":28"id":5,"name":"Damon 查看详情