寒假学习报告13(代码片段)

baimafeima baimafeima     2023-04-18     419

关键词:

实验 4  RDD 编程初级实践 

一、实验目的
(1)熟悉 Spark 的 RDD 基本操作及键值对操作; (2)熟悉使用 RDD 编程解决实际具体问题的方法。
二、实验平台
操作系统:Ubuntu16.04 Spark 版本:2.1.0
三、实验内容和要求
1.spark-shell 交互式编程
下载 chapter5-data1.txt,该数据集包含 了某大学计算机系的成绩,数据格式如下所示:

技术图片

 

 

请根据给定的实验数据,在 spark-shell 中通过编程来计算以下内容:

创建目录,将chapter5-data1.txt放在指定目录

技术图片

 

 技术图片

 

 

 

(1)该系总共有多少学生; 

技术图片

 

 

scala> val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
scala> val par = lines.map(row=>row.split(",")(0))
scala> val distinct_par = par.distinct()
scala> distinct_par.count

 

(2)该系共开设来多少门课程;

技术图片

 

 

scala> val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
scala> val par = lines.map(row=>row.split(",")(1))
scala> val distinct_par = par.distinct()
scala> distinct_par.count

 

 

 

 

 

(3)Tom 同学的总成绩平均分是多少;

技术图片

 

 

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(0)=="Tom")
pare.map(row=>(row.split(",")(0),row.split(",")(2).toInt)).mapValues(x=>(x,1)).reduceByKey((x,y ) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect()

 

 

(4)求每名同学的选修的课程门数;

技术图片

 

 

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.map(row=>(row.split(",")(0),row.split(",")(1)))
pare.mapValues(x => (x,1)).reduceByKey((x,y) => (" ",x._2 + y._2)).mapValues(x => x._2).foreach(print)

 

 

(5)该系 DataBase 课程共有多少人选修;

技术图片

 

 

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(1)=="DataBase")
pare.count

 

 

(6)各门课程的平均分是多少;

技术图片

 

 

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.map(row=>(row.split(",")(1),row.split(",")(2).toInt))
pare.mapValues(x=>(x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1/ x._2)).collect()

 

 

(7)使用累加器计算共有多少人选了 DataBase 这门课。

技术图片

 

 

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(1)=="DataBase").map(row=>(row.split(",")(1),1))
val accum = sc.longAccumulator("My Accumulator")
pare.values.foreach(x => accum.add(x))
accum.value

 


2.编写独立应用程序实现数据去重
对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其 中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下:

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下:

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下:

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

 

技术图片

 

 

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object RemDup
    def main(args: Array[String]) 
        val conf = new SparkConf().setAppName("RemDup")
        val sc = new SparkContext(conf)
        val dataFile ="file:///usr/local/sparkdata01/A.txt,file:///usr/local/sparkdata01/B.txt"
        val data = sc.textFile(dataFile,2)
        val res = data.filter(_.trim().length>0).map(line=>(line.trim,"")).partitionBy(new HashPartitioner(1)).groupByKey().sortByKey().keys
        res.saveAsTextFile("result")


 


3.编写独立应用程序实现求平均值问题
每个输入文件表示班级学生某个学科的成绩,每行内容由两个字段组成,第一个是学生 名字,第二个是学生的成绩;编写 Spark 独立应用程序求出所有学生的平均成绩,并输出到 一个新文件中。下面是输入文件和输出文件的一个样例,供参考。

Algorithm 成绩:

小明 92

小红 87

小新 82

小丽 90

Database 成绩:

小明 95

小红 81

小新 89

小丽 85

Python 成绩:

小明 82

小红 83

小新 94

小丽 91

平均成绩如下: 

 (小红,83.67) 

 (小新,88.33)   

 (小明,89.67)   

 (小丽,88.67)

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object avgscore 
    def main(args: Array[String]) 
    val conf = new SparkConf().setAppName("AvgScore")
    val sc = new SparkContext(conf)
    val dataFile = "file:///usr/local/sparkdata01/1.txt,file:///usr/local/spark/sparklab/lab043/2.txt,file:///usr/local/sparkdata01/3.txt"
    val data = sc.textFile(dataFile,3)
    var score = data.map(line=>(line.split(" ")(0),line.split(" ")(1).toInt)).mapValues(x=>(x,1)).reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)).mapValues(x=>(x._1/x._2)).collect().foreach(println)
    //res.saveAsTextFile("result")

 

寒假学习报告06(代码片段)

学了使用scarpy框架进行爬虫,爬取了某网站的部分信息。 部分代码:#-*-coding:utf-8-*-importscrapyfromdangdang01.itemsimportDangdang01Itemfromscrapy.httpimportRequestclassDdSpider(scrapy.Spider):name=‘dd‘allowed_domains=[‘dangdang.com‘]start_urls=[‘http://searc... 查看详情

2020寒假学习进度报告6(代码片段)

  1.计算级数  请用脚本的方式编程计算并输出下列级数的前n项之和Sn,直到Sn刚好大于或等于q为止,其中q为大于0的整数,其值通过键盘输入。   例如,若q的值为50.0,则输出应为:Sn=50.416695。请将源文件保存为exerci... 查看详情

寒假学习报告10(代码片段)

今天继续研究了爬虫遇到了一些问题,各种查阅资料才得以解决。response.xpath.extract()爬取的值里面含有 ,如何去掉呢?需要normalize-space()比如:response.xpath(‘//div[@class=""]/text()‘).extract()使用normalize-space()后:response.xpath(‘normalize-s... 查看详情

寒假学习报告04(代码片段)

今天学习了Scala的剩余的基础内容和安装了spark、sbt。 Scala函数声明格式:deffunctionName([参数列表]):[returntype]Scala函数定义格式:deffunctionName([参数列表]):[returntype]=functionbodyreturn[expr]Scala提供了多种不同的函数调用方式调用方法... 查看详情

寒假学习报告12(代码片段)

把昨天剩余的Scala基础编程做了,也按要求做了下一个实验的内容3.统计学生成绩学生的成绩清单格式如下所示,第一行为表头,各字段意思分别为学号、性别、课程名1、课程名2等,后面每一行代表一个学生的信息,各字段之间... 查看详情

2020/2/5寒假自学——学习进度报告12(代码片段)

  今天主要完成了北京市政百姓信件分析实战。  Spark方面只是安装了Flume,以及尝试使用套接字流作为DSteam的数据源。  启动NetCat作为套接字的监听模式,这样在端口9999就能和spark互联。    值得一提,nc-l9999虽... 查看详情

2020/2/1寒假自学——学习进度报告8(代码片段)

  开始尝试sparkSQL的尝试编程。  SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。  所以这次主要关注dataframe的编程。  首先创建了一个json文... 查看详情

2020/1/18寒假自学——学习进度报告3(代码片段)

  紧接上一次。  这次是对于spark安装的总结。  首先便是下载spark。   从官网上可以找到用户提供Hadoop环境的安装包,另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。   ... 查看详情

2020/1/27寒假自学——学习进度报告7(代码片段)

  今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。  spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以... 查看详情

2020/1/25寒假自学——学习进度报告6(代码片段)

  这篇准备尝试RDD的编程操作。  spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。  应对实验,我在创建了一个文本文件。内容包括——     之后就是尝... 查看详情

2020/1/18寒假自学——学习进度报告4(代码片段)

  上次是安装完成了,这次就来试试Spark的基本操作。  首先是运行Spark自带的实例SparkPi。    在配置好环境变量的时候可以直接运行,但可以看到虽然运行成功但信息太过复杂,所以检索之后——   &n... 查看详情

寒假学习报告05

今天在虚拟机上安装sbt和maven,按着林子雨老师的教程来的,也不知道是什么原因老出问题,到现在也没解决好。还学一些简单的爬虫知识。           查看详情

寒假作业(代码片段)

寒假作业现在小学的数学题目也不是那么好玩的。看看这个寒假作业:□+□=□□-□=□□×□=□□÷□=□(如果显示不出来,可以参见【图1.jpg】)每个方块代表1~13中的某一个数字,但不能重复。比如:6+7=139-8=13*4=1210/2=5以及:7+6=... 查看详情

18寒假13测(代码片段)

 题目名称buyslidedivide输入buy.inslide.individe.in输出buy.outslide.outdivide.out每个测试点时限1秒1秒1秒内存限制256MB256MB256MB测试点数目101010每个测试点分值101010是否有部分分无无无题目类型传统传统传统  buydescription:  &nb... 查看详情

2020寒假学习进度报告2

  今日完成内容:学习了scala中的语法,主要知识点包括:变量的定义,数值类型,运算符,流程控制,for循环,while循环,do...while循环,(不建议使用while和do...while,因为函数引入了外部变量),函数尤其是递归,之前学习其... 查看详情

寒假学习报告9

今天外面雾霾严重,请大家出门务必带好口罩,全面遮掩口鼻,不要让飞沫喷出,尽量减少外出,减少去人员密集场所的次数,买菜不要扎堆,在家的各位请注意保持开窗通风,保证室内外空气流通,回家时先消毒,勤洗手,饭... 查看详情

寒假学习11(代码片段)

AndroidStudio:RadioButtonMainActivitypackagecom.example.myapplicationfirst;importandroidx.appcompat.app.AppCompatActivity;importandroid.content.Intent;importandroid.os.Bundle;importandroid.view.View;importandroid.widget.Button;importandroid.widget.EditText;importandroid.widget.RadioButton;publicclas... 查看详情

2020寒假生活学习日记(代码片段)

安装sbtsbt是一款Spark用来对scala编写程序进行打包的工具,下载地址https://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.11/sbt-launch.jar 下载后,执行如下命令拷贝至/usr/local/sbt中: 接着在/usr/local/sbt中创建sbt脚本(vi... 查看详情