2020寒假生活学习日记(代码片段)

jccjcc jccjcc     2023-04-22     175

关键词:

安装maven
ubuntu中没有自带安装maven,需要手动安装maven。

技术图片

 

技术图片

 

 在终端执行如下命令创建一个文件夹sparkapp2作为应用程序根目录

技术图片

在 ./sparkapp2/src/main/java 下建立一个名为 SimpleApp.java 的文件(vim ./sparkapp2/src/main/java/SimpleApp.java),添加代码如下:

技术图片

 

 该程序依赖Spark Java API,因此我们需要通过Maven进行编译打包。在./sparkapp2中新建文件pom.xml(vim ./sparkapp2/pom.xml),添加内容如下,声明该独立应用程序的信息以及与Spark的依赖关系:

技术图片

 

 为了保证maven能够正常运行,先执行如下命令检查整个应用程序的文件结构:

技术图片

 

 接着,我们可以通过如下代码将这整个应用程序打包成Jar

技术图片

 

技术图片

 

  出现的问题:

在打包jar的时候一直出现error,后来我发现必须把pom.xml里面的

<groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.0.0-preview</version>
改成自己版本号
然后加上
<build>
        <pluginManagement>
          <plugins>
            <plugin>
              <artifactId>maven-resources-plugin</artifactId>
              <version>2.7</version>
            </plugin>           
          </plugins>
        </pluginManagement>   
    </build>
就OK了,之后保持网络顺畅,一直下载依赖包 等待结束。

2020寒假生活学习日记(代码片段)

安装mavenubuntu中没有自带安装maven,需要手动安装maven。   在终端执行如下命令创建一个文件夹sparkapp2作为应用程序根目录在./sparkapp2/src/main/java下建立一个名为SimpleApp.java的文件(vim./sparkapp2/src/main/java/SimpleApp.java),... 查看详情

2020寒假生活学习日记(十五)

后来在用JAVA爬取北京信件内容过程中出现好多问题。我该用python爬取。  这个是我爬取出来的各个信件网址的后缀即(http://www.beijing.gov.cn/hudong/hdjl/com.web.suggest.suggesDetail.flow?originalId=AH20021200370)然后编写代码:importrequests... 查看详情

2020寒假生活学习日记

在Windows系统和Linux系统之间互传文件本教程大量实验都是在Linux虚拟机上完成,因此,需要掌握如何把Windows系统中的文件上传到Linux系统,以及如何把Linux系统中的文件下载到Windows系统中。首先,到本教程官网的“下载专区&rd... 查看详情

2020寒假在家学习,抗击新型病毒!!!

1月30日发现了一个非常有意思的博主,她好像也是学习前端的,她的博客不仅有学习体会,还有生活体会,日常感想等等,然后真的写了超级多超级多!!!我突然意识到如果可以像这样将自己的学习、生活记录下来,定时的翻看,... 查看详情

2020寒假学习进度报告6(代码片段)

  1.计算级数  请用脚本的方式编程计算并输出下列级数的前n项之和Sn,直到Sn刚好大于或等于q为止,其中q为大于0的整数,其值通过键盘输入。   例如,若q的值为50.0,则输出应为:Sn=50.416695。请将源文件保存为exerci... 查看详情

2020/2/5寒假自学——学习进度报告12(代码片段)

  今天主要完成了北京市政百姓信件分析实战。  Spark方面只是安装了Flume,以及尝试使用套接字流作为DSteam的数据源。  启动NetCat作为套接字的监听模式,这样在端口9999就能和spark互联。    值得一提,nc-l9999虽... 查看详情

2020/2/1寒假自学——学习进度报告8(代码片段)

  开始尝试sparkSQL的尝试编程。  SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。  所以这次主要关注dataframe的编程。  首先创建了一个json文... 查看详情

2020/2/13寒假自学——学习进度报告16(代码片段)

  电脑修好了,但之前落下的几天博客确实没啥补的劲头,今天先写一份报告吧。  实验内容和要求安装Flume 安装成功。使用Avro数据源测试Flume配置文件  启动flumeagenta1创建指定的日志文件客户端传输传输完成&nbs... 查看详情

2020/1/18寒假自学——学习进度报告3(代码片段)

  紧接上一次。  这次是对于spark安装的总结。  首先便是下载spark。   从官网上可以找到用户提供Hadoop环境的安装包,另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。   ... 查看详情

寒假每日总结——2020.2.3(代码片段)

一、今日学习内容概括二、学习内容简述:(一)Markdown基础语法:下面会列举一些基础语法知识:1.标题:#一级##二级######六级(支持的最小级别字体)展示效果一级二级六级(支持的最小级别字体)2.粗体、斜体:**粗体***斜... 查看详情

2020寒假12(代码片段)

发现一个问题:bs4FeatureNotFound:Couldn‘tfindatreebuilderwiththefeaturesyourequested:lxml.Doyouneedtoinstallaparserlibrary?解决方法:将"lxml"改成"html.parser"soup=BeautifulSoup(content,"lxml")改成soup=BeautifulSoup(content,"html.parser")今天学习了关于python中beautifulsoup... 查看详情

2020/1/25寒假自学——学习进度报告6(代码片段)

  这篇准备尝试RDD的编程操作。  spark运行用户从文件系统中加载数据、通过并行集合(数组)创建RDD,两种都是很方便的操作方式。  应对实验,我在创建了一个文本文件。内容包括——     之后就是尝... 查看详情

2020/1/27寒假自学——学习进度报告7(代码片段)

  今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。  spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以... 查看详情

一寒假学习计划:万事俱备,只欠ubuntu——ubuntu配置。(代码片段)

       1月17日考完试,18日的火车,19号早晨6点半到家,休息一天,20号继续开始苦逼学习生活,毕竟20岁不努力,30岁就得超级难受。一、系统的安装       这个是最快乐的,原来用的是Win10的... 查看详情

2020/1/18寒假自学——学习进度报告4(代码片段)

  上次是安装完成了,这次就来试试Spark的基本操作。  首先是运行Spark自带的实例SparkPi。    在配置好环境变量的时候可以直接运行,但可以看到虽然运行成功但信息太过复杂,所以检索之后——   &n... 查看详情

关于这个月和寒假的计划(代码片段)

一个菜鸟的烦恼日记这个月开始12/8号,开始上Rhcsa的课,每个星期六日都上,一上就上了8小时,那个老师挺会废话,我之前用了一星期看完他的视频,期间用1.5的速度看的视频,哎,周末不能回家,还是家里的菜好吃,在学校... 查看详情

pwn学pwn日记(持续更新)(代码片段)

...pwn】学pwn日记(持续更新)前言从8.2开始系统性学习pwn,在此之前,学习了部分汇编指令以及32位c语言程序的堆栈图及函数调用。学习视频链接:XMCVE2020CTFPwn入门课程、【星盟安全】PWN系列教程(持续更新... 查看详情

寒假2

2020.2.2今天的寒假生活学习了了解Spark内存计算框架.Hadoop使用数据复制来实现容错性,而Spark使用RDD数据存储模型来实现数据的容错性。了解了hadoop框架中的HDFS(分布式文件系统)Mapreduce(分布式计算框架)map函数Reduce(函数)Y... 查看详情