关键词:
安装maven
ubuntu中没有自带安装maven,需要手动安装maven。
在终端执行如下命令创建一个文件夹sparkapp2作为应用程序根目录
在 ./sparkapp2/src/main/java 下建立一个名为 SimpleApp.java 的文件(vim ./sparkapp2/src/main/java/SimpleApp.java),添加代码如下:
该程序依赖Spark Java API,因此我们需要通过Maven进行编译打包。在./sparkapp2中新建文件pom.xml(vim ./sparkapp2/pom.xml),添加内容如下,声明该独立应用程序的信息以及与Spark的依赖关系:
为了保证maven能够正常运行,先执行如下命令检查整个应用程序的文件结构:
接着,我们可以通过如下代码将这整个应用程序打包成Jar
出现的问题:
在打包jar的时候一直出现error,后来我发现必须把pom.xml里面的
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>2.0.0-preview</version>
改成自己版本号
然后加上
<build> <pluginManagement> <plugins> <plugin> <artifactId>maven-resources-plugin</artifactId> <version>2.7</version> </plugin> </plugins> </pluginManagement> </build>
就OK了,之后保持网络顺畅,一直下载依赖包 等待结束。
2020寒假生活学习日记(代码片段)
安装mavenubuntu中没有自带安装maven,需要手动安装maven。 在终端执行如下命令创建一个文件夹sparkapp2作为应用程序根目录在./sparkapp2/src/main/java下建立一个名为SimpleApp.java的文件(vim./sparkapp2/src/main/java/SimpleApp.java),... 查看详情
2020寒假生活学习日记(十五)
后来在用JAVA爬取北京信件内容过程中出现好多问题。我该用python爬取。 这个是我爬取出来的各个信件网址的后缀即(http://www.beijing.gov.cn/hudong/hdjl/com.web.suggest.suggesDetail.flow?originalId=AH20021200370)然后编写代码:importrequests... 查看详情
2020寒假生活学习日记
在Windows系统和Linux系统之间互传文件本教程大量实验都是在Linux虚拟机上完成,因此,需要掌握如何把Windows系统中的文件上传到Linux系统,以及如何把Linux系统中的文件下载到Windows系统中。首先,到本教程官网的“下载专区&rd... 查看详情
2020寒假在家学习,抗击新型病毒!!!
1月30日发现了一个非常有意思的博主,她好像也是学习前端的,她的博客不仅有学习体会,还有生活体会,日常感想等等,然后真的写了超级多超级多!!!我突然意识到如果可以像这样将自己的学习、生活记录下来,定时的翻看,... 查看详情
2020寒假学习进度报告6(代码片段)
1.计算级数 请用脚本的方式编程计算并输出下列级数的前n项之和Sn,直到Sn刚好大于或等于q为止,其中q为大于0的整数,其值通过键盘输入。 例如,若q的值为50.0,则输出应为:Sn=50.416695。请将源文件保存为exerci... 查看详情
2020/2/5寒假自学——学习进度报告12(代码片段)
今天主要完成了北京市政百姓信件分析实战。 Spark方面只是安装了Flume,以及尝试使用套接字流作为DSteam的数据源。 启动NetCat作为套接字的监听模式,这样在端口9999就能和spark互联。 值得一提,nc-l9999虽... 查看详情
2020/2/1寒假自学——学习进度报告8(代码片段)
开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 所以这次主要关注dataframe的编程。 首先创建了一个json文... 查看详情
2020/2/13寒假自学——学习进度报告16(代码片段)
电脑修好了,但之前落下的几天博客确实没啥补的劲头,今天先写一份报告吧。 实验内容和要求安装Flume 安装成功。使用Avro数据源测试Flume配置文件 启动flumeagenta1创建指定的日志文件客户端传输传输完成&nbs... 查看详情
2020/1/18寒假自学——学习进度报告3(代码片段)
紧接上一次。 这次是对于spark安装的总结。 首先便是下载spark。 从官网上可以找到用户提供Hadoop环境的安装包,另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。 ... 查看详情
寒假每日总结——2020.2.3(代码片段)
一、今日学习内容概括二、学习内容简述:(一)Markdown基础语法:下面会列举一些基础语法知识:1.标题:#一级##二级######六级(支持的最小级别字体)展示效果一级二级六级(支持的最小级别字体)2.粗体、斜体:**粗体***斜... 查看详情
2020寒假12(代码片段)
发现一个问题:bs4FeatureNotFound:Couldn‘tfindatreebuilderwiththefeaturesyourequested:lxml.Doyouneedtoinstallaparserlibrary?解决方法:将"lxml"改成"html.parser"soup=BeautifulSoup(content,"lxml")改成soup=BeautifulSoup(content,"html.parser")今天学习了关于python中beautifulsoup... 查看详情
2020/1/25寒假自学——学习进度报告6(代码片段)
这篇准备尝试RDD的编程操作。 spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。 应对实验,我在创建了一个文本文件。内容包括—— 之后就是尝... 查看详情
2020/1/27寒假自学——学习进度报告7(代码片段)
今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以... 查看详情
一寒假学习计划:万事俱备,只欠ubuntu——ubuntu配置。(代码片段)
1月17日考完试,18日的火车,19号早晨6点半到家,休息一天,20号继续开始苦逼学习生活,毕竟20岁不努力,30岁就得超级难受。一、系统的安装 这个是最快乐的,原来用的是Win10的... 查看详情
2020/1/18寒假自学——学习进度报告4(代码片段)
上次是安装完成了,这次就来试试Spark的基本操作。 首先是运行Spark自带的实例SparkPi。 在配置好环境变量的时候可以直接运行,但可以看到虽然运行成功但信息太过复杂,所以检索之后—— &n... 查看详情
关于这个月和寒假的计划(代码片段)
一个菜鸟的烦恼日记这个月开始12/8号,开始上Rhcsa的课,每个星期六日都上,一上就上了8小时,那个老师挺会废话,我之前用了一星期看完他的视频,期间用1.5的速度看的视频,哎,周末不能回家,还是家里的菜好吃,在学校... 查看详情
pwn学pwn日记(持续更新)(代码片段)
...pwn】学pwn日记(持续更新)前言从8.2开始系统性学习pwn,在此之前,学习了部分汇编指令以及32位c语言程序的堆栈图及函数调用。学习视频链接:XMCVE2020CTFPwn入门课程、【星盟安全】PWN系列教程(持续更新... 查看详情
寒假2
2020.2.2今天的寒假生活学习了了解Spark内存计算框架.Hadoop使用数据复制来实现容错性,而Spark使用RDD数据存储模型来实现数据的容错性。了解了hadoop框架中的HDFS(分布式文件系统)Mapreduce(分布式计算框架)map函数Reduce(函数)Y... 查看详情