rdd编程实践2-编写独立应用程序实现数据去重,实现求平均值问题(代码片段)

123456www 123456www     2023-04-18     232

关键词:

(1)编写独立应用程序实现数据去重

package my.scala
import org.apache.spark.SparkConf, SparkContext
object case2 
  def main(args: Array[String]): Unit = 
    val conf = new SparkConf().setMaster("local").setAppName("reduce")
    val sc = new SparkContext(conf)
    sc.setLogLevel("ERROR")
    //获取数据
    val two = sc.textFile("file:///usr/local/spark/text_4/sec")
    two.filter(_.trim().length>0) //trim()函数返回空格个数
        .map(line=>(line.trim,""))//全部值当key,(key value,"")
          .groupByKey()//groupByKey,过滤重复的key value ,发送到总机器上汇总
              .sortByKey() //按key value的自然顺序排序
                  .keys.collect().foreach(println)//collect是将结果转换为数组的形式
  

技术图片

(2)编写独立应用程序实现求平均值问题

package my.scala
import org.apache.spark.SparkConf, SparkContext
object pingjunzhi 
  def main(args: Array[String]): Unit = 
    val conf = new SparkConf().setMaster("local").setAppName("reduce")
    val sc = new SparkContext(conf)
    sc.setLogLevel("ERROR")
   
val fourth = sc.textFile("file:///usr/local/spark/text_4/thi")
  
val res = fourth.filter(_.trim().length>0).map(line=>(line.split("	")(0).trim(),line.split("	")(1).trim().toInt)).groupByKey().map(x => 
   var num = 0.0
   var sum = 0
   for(i <- x._2)
    sum = sum + i
    num = num +1
   
   val avg = sum/num
   val format = f"$avg%1.2f".toDouble
   (x._1,format)
 ).collect.foreach(x => println(x._1+"	"+x._2))
  

rdd编程初级实践(代码片段)

RDD编程初级实践一、pyspark交互式编程二、编写独立应用程序实现数据去重三、编写独立应用程序实现求平均值问题一、pyspark交互式编程本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下... 查看详情

rdd编程初级实践(代码片段)

RDD编程初级实践一、pyspark交互式编程二、编写独立应用程序实现数据去重三、编写独立应用程序实现求平均值问题一、pyspark交互式编程本作业提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下... 查看详情

2021-06-09*rdd编程初级实践(代码片段)

...ure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……编写独立应用程序实现数据去重对于两个输入文件A和B,编写Spark独立应用程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新文件C。本文给出门课的... 查看详情

实验7spark初级编程实践(代码片段)

...xff08;3)启动Hadoop2.Spark读取文件系统的数据3.编写独立应用程序实现数据去重4.编写独立应用程序实现求平均值问题四、实验总结一、实验目的掌握使用Spark访问本地文件和HDFS文件的方法掌握Spark应用程序的编写、编译和运行... 查看详情

rdd编程--数据去重求平均值

文件的存取都是在hdfs内完成(一)数据去重:程序: 操作:结果: (二)求平均值程序:  操作:  结果:  查看详情

实验5mapreduce初级编程实践——编程实现文件合并和去重操作(代码片段)

一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)Hadoop版本ÿ... 查看详情

实验5mapreduce初级编程实践——编写程序实现对输入文件的排序(代码片段)

一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)Hadoop版本ÿ... 查看详情

算法设计与分析实训(代码片段)

...构知识,独立完成问题分析、总体设计、详细设计和编程实现等软件开发全过程的综合实践能力。巩固、深化学生的理论知识,提高编程水平,并在此过程中培养他们 查看详情

实验5mapreduce初级编程实践——编程实现文件合并和去重操作(代码片段)

一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04)Hadoop版本ÿ... 查看详情

rdd编程初级实践

RDD编程初级实践一、实验目的(1)熟悉Spark的RDD基本操作及键值对操作;(2)熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统:Ubuntu16.04Spark版本:2.4.0Python版本:3.4.3三、实验内... 查看详情

rdd编程初级实践

RDD编程初级实践一、实验目的(1)熟悉Spark的RDD基本操作及键值对操作;(2)熟悉使用RDD编程解决实际具体问题的方法。二、实验平台操作系统:Ubuntu16.04Spark版本:2.4.0Python版本:3.4.3三、实验内... 查看详情

spark基础编程学习02(代码片段)

文章目录输出单科成绩为100分的学生ID使用union()合并多个RDD使用filter()进行过滤使用distinct()进行去重简单的集合操作intersection()subtract()cartesian()任务实现创建数据RDD通过filter操作过滤出成绩为100分的学生数据,并通过map提取... 查看详情

算法设计与分析实训(代码片段)

...构知识,独立完成问题分析、总体设计、详细设计和编程实现等软件开发全过程的综合实践能力。巩固、深化学生的理论知识,提高编程水平,并在此过程中培养他们严谨的科学态度和良好的工作作风。课程设计要求... 查看详情

算法设计与分析实训(代码片段)

...构知识,独立完成问题分析、总体设计、详细设计和编程实现等软件开发全过程的综合实践能力。巩固、深化学生的理论知识,提高编程水平,并在此过程中培养他们严谨的科学态度和良好的工作作风。课程设计要求... 查看详情

mapreduce编程实践——wordcount运行实例(python实现)(代码片段)

一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见数据处理问题的方法,包括数据合并、数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Ubuntu18.04(或Ubuntu16.04)Hadoop... 查看详情

实验5mapreduce初级编程实践(python实现)(代码片段)

一、实验目的通过实验掌握基本的MapReduce编程方法;掌握用MapReduce解决一些常见数据处理问题的方法,包括数据合并、数据去重、数据排序和数据挖掘等。二、实验平台操作系统:Ubuntu18.04(或Ubuntu16.04)Hadoop... 查看详情

2021-06-09*rdd编程初级实践(代码片段)

RDD编程初级实践一、数据来源描述pyspark交互式编程科任老师提供分析数据data.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStruct... 查看详情

大数据技术之_19_spark学习_02_sparkcore应用解析+rdd概念+rdd编程+键值对rdd+数据读取与保存主要方式+rdd编程进阶+sparkcor(代码片段)

...特点1.4.1分区1.4.2只读1.4.3依赖1.4.4缓存1.4.5CheckPoint第2章RDD编程2.1RDD编程模型2.2RDD创建2.2.1由一个已经存在的Scala集合创建,即集合并行化(测试用)2.2.2由外部存储系统的数据集创建(开发用)2.3RDD编程 查看详情