正文

寒假学习报告13(代码片段)

baimafeima  baimafeima  2023-04-18  419

关键词：

实验 4 RDD 编程初级实践

一、实验目的
（1）熟悉 Spark 的 RDD 基本操作及键值对操作；（2）熟悉使用 RDD 编程解决实际具体问题的方法。
二、实验平台
操作系统：Ubuntu16.04 Spark 版本：2.1.0
三、实验内容和要求
1．spark-shell 交互式编程
下载 chapter5-data1.txt，该数据集包含了某大学计算机系的成绩，数据格式如下所示：

技术图片

请根据给定的实验数据，在 spark-shell 中通过编程来计算以下内容：

创建目录，将chapter5-data1.txt放在指定目录

技术图片

（1）该系总共有多少学生；

技术图片

scala> val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
scala> val par = lines.map(row=>row.split(",")(0))
scala> val distinct_par = par.distinct()
scala> distinct_par.count

（2）该系共开设来多少门课程；

技术图片

scala> val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
scala> val par = lines.map(row=>row.split(",")(1))
scala> val distinct_par = par.distinct()
scala> distinct_par.count

（3）Tom 同学的总成绩平均分是多少；

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(0)=="Tom")
pare.map(row=>(row.split(",")(0),row.split(",")(2).toInt)).mapValues(x=>(x,1)).reduceByKey((x,y ) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1 / x._2)).collect()

（4）求每名同学的选修的课程门数；

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.map(row=>(row.split(",")(0),row.split(",")(1)))
pare.mapValues(x => (x,1)).reduceByKey((x,y) => (" ",x._2 + y._2)).mapValues(x => x._2).foreach(print)

（5）该系 DataBase 课程共有多少人选修；

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(1)=="DataBase")
pare.count

（6）各门课程的平均分是多少；

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.map(row=>(row.split(",")(1),row.split(",")(2).toInt))
pare.mapValues(x=>(x,1)).reduceByKey((x,y) => (x._1+y._1,x._2 + y._2)).mapValues(x => (x._1/ x._2)).collect()

（7）使用累加器计算共有多少人选了 DataBase 这门课。

技术图片

val lines = sc.textFile("file:///usr/local/sparkdata01/chapter5-data1.txt")
val pare = lines.filter(row=>row.split(",")(1)=="DataBase").map(row=>(row.split(",")(1),1))
val accum = sc.longAccumulator("My Accumulator")
pare.values.foreach(x => accum.add(x))
accum.value

2.编写独立应用程序实现数据去重
对于两个输入文件 A 和 B，编写 Spark 独立应用程序，对两个文件进行合并，并剔除其中重复的内容，得到一个新文件 C。下面是输入文件和输出文件的一个样例，供参考。输入文件 A 的样例如下：

20170101 x

20170102 y

20170103 x

20170104 y

20170105 z

20170106 z

输入文件 B 的样例如下：

20170101 y

20170102 y

20170103 x

20170104 z

20170105 y

根据输入的文件 A 和 B 合并得到的输出文件 C 的样例如下：

20170101 x

20170101 y

20170102 y

20170103 x

20170104 y

20170104 z

20170105 y

20170105 z

20170106 z

技术图片

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object RemDup
    def main(args: Array[String]) 
        val conf = new SparkConf().setAppName("RemDup")
        val sc = new SparkContext(conf)
        val dataFile ="file:///usr/local/sparkdata01/A.txt,file:///usr/local/sparkdata01/B.txt"
        val data = sc.textFile(dataFile,2)
        val res = data.filter(_.trim().length>0).map(line=>(line.trim,"")).partitionBy(new HashPartitioner(1)).groupByKey().sortByKey().keys
        res.saveAsTextFile("result")

3.编写独立应用程序实现求平均值问题
每个输入文件表示班级学生某个学科的成绩，每行内容由两个字段组成，第一个是学生名字，第二个是学生的成绩；编写 Spark 独立应用程序求出所有学生的平均成绩，并输出到一个新文件中。下面是输入文件和输出文件的一个样例，供参考。

Algorithm 成绩：

小明 92

小红 87

小新 82

小丽 90

Database 成绩：

小明 95

小红 81

小新 89

小丽 85

Python 成绩：

小明 82

小红 83

小新 94

小丽 91

平均成绩如下：

(小红,83.67)

(小新,88.33)

(小明,89.67)

(小丽,88.67)

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.HashPartitioner
object avgscore 
    def main(args: Array[String]) 
    val conf = new SparkConf().setAppName("AvgScore")
    val sc = new SparkContext(conf)
    val dataFile = "file:///usr/local/sparkdata01/1.txt,file:///usr/local/spark/sparklab/lab043/2.txt,file:///usr/local/sparkdata01/3.txt"
    val data = sc.textFile(dataFile,3)
    var score = data.map(line=>(line.split(" ")(0),line.split(" ")(1).toInt)).mapValues(x=>(x,1)).reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)).mapValues(x=>(x._1/x._2)).collect().foreach(println)
    //res.saveAsTextFile("result")

寒假学习报告06(代码片段)

学了使用scarpy框架进行爬虫，爬取了某网站的部分信息。部分代码：#-*-coding:utf-8-*-importscrapyfromdangdang01.itemsimportDangdang01Itemfromscrapy.httpimportRequestclassDdSpider(scrapy.Spider):name=‘dd‘allowed_domains=[‘dangdang.com‘]start_urls=[‘http://searc... 查看详情

2020寒假学习进度报告6(代码片段)

　　1.计算级数　　请用脚本的方式编程计算并输出下列级数的前n项之和Sn，直到Sn刚好大于或等于q为止，其中q为大于0的整数，其值通过键盘输入。　　例如，若q的值为50.0，则输出应为：Sn=50.416695。请将源文件保存为exerci... 查看详情

寒假学习报告10(代码片段)

今天继续研究了爬虫遇到了一些问题，各种查阅资料才得以解决。response.xpath.extract()爬取的值里面含有，如何去掉呢？需要normalize-space()比如:response.xpath(‘//div[@class=""]/text()‘).extract()使用normalize-space()后：response.xpath(‘normalize-s... 查看详情

寒假学习报告04(代码片段)

今天学习了Scala的剩余的基础内容和安装了spark、sbt。 Scala函数声明格式：deffunctionName([参数列表]):[returntype]Scala函数定义格式：deffunctionName([参数列表]):[returntype]=functionbodyreturn[expr]Scala提供了多种不同的函数调用方式调用方法... 查看详情

寒假学习报告12(代码片段)

把昨天剩余的Scala基础编程做了，也按要求做了下一个实验的内容3.统计学生成绩学生的成绩清单格式如下所示，第一行为表头，各字段意思分别为学号、性别、课程名1、课程名2等，后面每一行代表一个学生的信息，各字段之间... 查看详情

2020/2/5寒假自学——学习进度报告12(代码片段)

　　今天主要完成了北京市政百姓信件分析实战。　　Spark方面只是安装了Flume，以及尝试使用套接字流作为DSteam的数据源。　　启动NetCat作为套接字的监听模式，这样在端口9999就能和spark互联。　　值得一提，nc-l9999虽... 查看详情

2020/2/1寒假自学——学习进度报告8(代码片段)

　　开始尝试sparkSQL的尝试编程。　　SparkSQL总体来说就是spark中的hive，但麻烦的一点是spark官网下载的并不自带对hive的支持，所以不能使用外部的hive。之后解决。　　所以这次主要关注dataframe的编程。　　首先创建了一个json文... 查看详情

2020/1/18寒假自学——学习进度报告3(代码片段)

　　紧接上一次。　　这次是对于spark安装的总结。　　首先便是下载spark。　　从官网上可以找到用户提供Hadoop环境的安装包，另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。　　... 查看详情

2020/1/27寒假自学——学习进度报告7(代码片段)

　　今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。　　spark集群搭建环境使Linux系统，但说实在，Linux系统因为是虚拟机的缘故运行IDE并不是很舒服，想要对python进行舒适的编程操作还不是一件容易事，所以... 查看详情

2020/1/25寒假自学——学习进度报告6(代码片段)

　　这篇准备尝试RDD的编程操作。　　spark运行用户从文件系统中加载数据、通过并行集合（数组）创建RDD，两种都是很方便的操作方式。　　应对实验，我在创建了一个文本文件。内容包括——　　　　之后就是尝... 查看详情

2020/1/18寒假自学——学习进度报告4(代码片段)

　　上次是安装完成了，这次就来试试Spark的基本操作。　　首先是运行Spark自带的实例SparkPi。　　在配置好环境变量的时候可以直接运行，但可以看到虽然运行成功但信息太过复杂，所以检索之后——　　 &n... 查看详情

寒假学习报告05

今天在虚拟机上安装sbt和maven，按着林子雨老师的教程来的，也不知道是什么原因老出问题，到现在也没解决好。还学一些简单的爬虫知识。查看详情

寒假作业(代码片段)

寒假作业现在小学的数学题目也不是那么好玩的。看看这个寒假作业：□+□=□□-□=□□×□=□□÷□=□(如果显示不出来，可以参见【图1.jpg】)每个方块代表1~13中的某一个数字，但不能重复。比如：6+7=139-8=13*4=1210/2=5以及：7+6=... 查看详情

18寒假13测(代码片段)

题目名称buyslidedivide输入buy.inslide.individe.in输出buy.outslide.outdivide.out每个测试点时限1秒1秒1秒内存限制256MB256MB256MB测试点数目101010每个测试点分值101010是否有部分分无无无题目类型传统传统传统 buydescription: &nb... 查看详情

2020寒假学习进度报告2

　　今日完成内容：学习了scala中的语法，主要知识点包括：变量的定义，数值类型，运算符，流程控制，for循环，while循环，do...while循环,（不建议使用while和do...while，因为函数引入了外部变量），函数尤其是递归，之前学习其... 查看详情

寒假学习报告9

今天外面雾霾严重，请大家出门务必带好口罩，全面遮掩口鼻，不要让飞沫喷出，尽量减少外出，减少去人员密集场所的次数，买菜不要扎堆，在家的各位请注意保持开窗通风，保证室内外空气流通，回家时先消毒，勤洗手，饭... 查看详情

寒假学习11(代码片段)

AndroidStudio:RadioButtonMainActivitypackagecom.example.myapplicationfirst;importandroidx.appcompat.app.AppCompatActivity;importandroid.content.Intent;importandroid.os.Bundle;importandroid.view.View;importandroid.widget.Button;importandroid.widget.EditText;importandroid.widget.RadioButton;publicclas... 查看详情

2020寒假生活学习日记(代码片段)

安装sbtsbt是一款Spark用来对scala编写程序进行打包的工具，下载地址https://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.11/sbt-launch.jar 下载后，执行如下命令拷贝至/usr/local/sbt中：接着在/usr/local/sbt中创建sbt脚本（vi... 查看详情