2020寒假生活学习日记(代码片段)

jccjcc jccjcc     2023-04-22     155

关键词:

安装sbt
sbt是一款Spark用来对scala编写程序进行打包的工具,下载地址https://repo.typesafe.com/typesafe/ivy-releases/org.scala-sbt/sbt-launch/0.13.11/sbt-launch.jar

技术图片

 

下载后,执行如下命令拷贝至 /usr/local/sbt 中:

 技术图片

接着在 /usr/local/sbt 中创建 sbt 脚本(vim ./sbt),添加如下内容:

技术图片

技术图片

 

为 ./sbt 脚本增加可执行权限:

 技术图片

 

 最后运行如下命令,检验 sbt 是否可用

技术图片

技术图片

 

 Scala应用程序代码
在终端中执行如下命令创建一个文件夹 sparkapp 作为应用程序根目录:

技术图片

在 ./sparkapp/src/main/scala 下建立一个名为 SimpleApp.scala 的文件(vim ./sparkapp/src/main/scala/SimpleApp.scala),添加代码如下:

技术图片

 

  ./sparkapp 中新建文件 simple.sbt(vim ./sparkapp/simple.sbt),添加内容如下,声明该独立应用程序的信息以及与 Spark 的依赖关系:

技术图片

为保证 sbt 能正常运行,先执行如下命令检查整个应用程序的文件结构:

技术图片

 

 我们就可以通过如下代码将整个应用程序打包成 JAR(首次运行同样需要下载依赖包 ):

/usr/local/sbt/sbt package

 技术图片

 

 说明成功。

最后,我们就可以将生成的 jar 包通过 spark-submit 提交到 Spark 中运行了,命令如下:

技术图片

 

 

遇到的问题:在修改spark版本的时候,由于spark版本是3.0.0-preview2,但是只是改成3.0.0,导致在将整个应用程序打包成 JAR的时候出现错误,找不到版本为3.0.0的spark。

 

2020寒假生活学习日记(代码片段)

安装mavenubuntu中没有自带安装maven,需要手动安装maven。   在终端执行如下命令创建一个文件夹sparkapp2作为应用程序根目录在./sparkapp2/src/main/java下建立一个名为SimpleApp.java的文件(vim./sparkapp2/src/main/java/SimpleApp.java),... 查看详情

2020寒假生活学习日记(十五)

后来在用JAVA爬取北京信件内容过程中出现好多问题。我该用python爬取。  这个是我爬取出来的各个信件网址的后缀即(http://www.beijing.gov.cn/hudong/hdjl/com.web.suggest.suggesDetail.flow?originalId=AH20021200370)然后编写代码:importrequests... 查看详情

2020寒假生活学习日记

在Windows系统和Linux系统之间互传文件本教程大量实验都是在Linux虚拟机上完成,因此,需要掌握如何把Windows系统中的文件上传到Linux系统,以及如何把Linux系统中的文件下载到Windows系统中。首先,到本教程官网的“下载专区&rd... 查看详情

2020寒假在家学习,抗击新型病毒!!!

1月30日发现了一个非常有意思的博主,她好像也是学习前端的,她的博客不仅有学习体会,还有生活体会,日常感想等等,然后真的写了超级多超级多!!!我突然意识到如果可以像这样将自己的学习、生活记录下来,定时的翻看,... 查看详情

2020寒假学习进度报告6(代码片段)

  1.计算级数  请用脚本的方式编程计算并输出下列级数的前n项之和Sn,直到Sn刚好大于或等于q为止,其中q为大于0的整数,其值通过键盘输入。   例如,若q的值为50.0,则输出应为:Sn=50.416695。请将源文件保存为exerci... 查看详情

2020/2/5寒假自学——学习进度报告12(代码片段)

  今天主要完成了北京市政百姓信件分析实战。  Spark方面只是安装了Flume,以及尝试使用套接字流作为DSteam的数据源。  启动NetCat作为套接字的监听模式,这样在端口9999就能和spark互联。    值得一提,nc-l9999虽... 查看详情

2020/2/1寒假自学——学习进度报告8(代码片段)

  开始尝试sparkSQL的尝试编程。  SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。  所以这次主要关注dataframe的编程。  首先创建了一个json文... 查看详情

2020/2/13寒假自学——学习进度报告16(代码片段)

  电脑修好了,但之前落下的几天博客确实没啥补的劲头,今天先写一份报告吧。  实验内容和要求安装Flume 安装成功。使用Avro数据源测试Flume配置文件  启动flumeagenta1创建指定的日志文件客户端传输传输完成&nbs... 查看详情

2020/1/18寒假自学——学习进度报告3(代码片段)

  紧接上一次。  这次是对于spark安装的总结。  首先便是下载spark。   从官网上可以找到用户提供Hadoop环境的安装包,另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。   ... 查看详情

寒假每日总结——2020.2.3(代码片段)

一、今日学习内容概括二、学习内容简述:(一)Markdown基础语法:下面会列举一些基础语法知识:1.标题:#一级##二级######六级(支持的最小级别字体)展示效果一级二级六级(支持的最小级别字体)2.粗体、斜体:**粗体***斜... 查看详情

2020寒假12(代码片段)

发现一个问题:bs4FeatureNotFound:Couldn‘tfindatreebuilderwiththefeaturesyourequested:lxml.Doyouneedtoinstallaparserlibrary?解决方法:将"lxml"改成"html.parser"soup=BeautifulSoup(content,"lxml")改成soup=BeautifulSoup(content,"html.parser")今天学习了关于python中beautifulsoup... 查看详情

2020/1/25寒假自学——学习进度报告6(代码片段)

  这篇准备尝试RDD的编程操作。  spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。  应对实验,我在创建了一个文本文件。内容包括——     之后就是尝... 查看详情

2020/1/27寒假自学——学习进度报告7(代码片段)

  今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。  spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以... 查看详情

一寒假学习计划:万事俱备,只欠ubuntu——ubuntu配置。(代码片段)

       1月17日考完试,18日的火车,19号早晨6点半到家,休息一天,20号继续开始苦逼学习生活,毕竟20岁不努力,30岁就得超级难受。一、系统的安装       这个是最快乐的,原来用的是Win10的... 查看详情

2020/1/18寒假自学——学习进度报告4(代码片段)

  上次是安装完成了,这次就来试试Spark的基本操作。  首先是运行Spark自带的实例SparkPi。    在配置好环境变量的时候可以直接运行,但可以看到虽然运行成功但信息太过复杂,所以检索之后——   &n... 查看详情

关于这个月和寒假的计划(代码片段)

一个菜鸟的烦恼日记这个月开始12/8号,开始上Rhcsa的课,每个星期六日都上,一上就上了8小时,那个老师挺会废话,我之前用了一星期看完他的视频,期间用1.5的速度看的视频,哎,周末不能回家,还是家里的菜好吃,在学校... 查看详情

pwn学pwn日记(持续更新)(代码片段)

...pwn】学pwn日记(持续更新)前言从8.2开始系统性学习pwn,在此之前,学习了部分汇编指令以及32位c语言程序的堆栈图及函数调用。学习视频链接:XMCVE2020CTFPwn入门课程、【星盟安全】PWN系列教程(持续更新... 查看详情

寒假2

2020.2.2今天的寒假生活学习了了解Spark内存计算框架.Hadoop使用数据复制来实现容错性,而Spark使用RDD数据存储模型来实现数据的容错性。了解了hadoop框架中的HDFS(分布式文件系统)Mapreduce(分布式计算框架)map函数Reduce(函数)Y... 查看详情