spark学习02天-scala读取文件,词频统计(代码片段)

students students     2022-12-18     767

关键词:

1.在本地安装jdk环境和scala环境

技术图片

 

2.读取本地文件:

 

scala> import scala.io.Source
import scala.io.Source

scala> val lines=Source.fromFile("F:/ziyuan_badou/file.txt").getLines().toList
lines: List[String]
= List("With the development of civilization, it is the chil drens duty to study in school since they were small. As the young kids, it is t heir nature to hang out for fun. ", "", "While for them, most of the time have b een limited in the class. So they feel frustrated and dont have much passion to study. It is of great importance to develop ", "", "interest. The first thing i s to broaden vision. The students can read travel books or watch tourist show, f or anyone who cannot resist the charm of beautiful scenery ", "", and delicious food. The second thing is taking the right attitude to exams. Never giving too m uch pressure on getting high marks. The only thing we should do is to enjoy gain ing knowledge.)

3.词频topN计算

scala> lines.map(x=>x.split(" ")).flatten.map(x=>(x,1)).groupBy(x=>x._1).map(x=>
(x._1,x._2.map(x=>x._2).sum)).toList.sortBy(x=>x._2).reverse
res0: List[(String, Int)] = List((the,7), (to,7), (is,6), (of,4), (The,4), (thin
g,3), (for,3), ("",3), (and,2), (much,2), (they,2), (it,2), (have,2), (in,2), (o
nly,1), (right,1), (show,,1), (exams.,1), (high,1), (since,1), (study,1), (study
.,1), (great,1), (we,1), (interest.,1), (develop,1), (As,1), (passion,1), (were,
1), (time,1), (them,,1), (childrens,1), (development,1), (knowledge.,1), (It,1)
, (anyone,1), (Never,1), (nature,1), (enjoy,1), (first,1), (taking,1), (frustrat
ed,1), (books,1), (delicious,1), (So,1), (their,1), (resist,1), (should,1), (sma
ll.,1), (gaining,1), (While,1), (who,1), (on,1), (can,1), (been,1), (second,1),
(travel,1), (most,1), (scenery,1), (getting,1), (attitude,1), (cannot,1), (civil
ization,,1), (broaden,1), (out,1), (food.,1), (dont,1), (importance,1), (kid...

 

 

02使用spark进行词频统计scala交互(代码片段)

...oot进行2操作1.使用xshell以root登录到192.168.100.2002.新建一个文件,输入一些字符串,上传到HDFS#进入hadoop的bin目录cd/root/hadoop-2.5.2/bin#编辑word,加入以下内容,保存退出IamzhangliIamxiaoliwhoareyouIamalihellojiangsuwanhewanhe#上传word到HDFS./hdfsdfs... 查看详情

scala配置和spark配置以及scala一些函数的用法(附带词频统计实例)(代码片段)

...mp9BLmf74hsg?pwd=1111也可以自己去官网下载。配置Spark解压文件到softwar 查看详情

02使用flink的本地模式完成词频统计(代码片段)

...storm一样,flink也有两种模式,一是本地模式,主要用于学习和测试,另一个是集群模式,实际生产中使用这种模式。本节将阐述如何使用本地模式的flink进行词频统计。1系统、软件以及前提约束CentOS764工作站作者的机子ip是192.16... 查看详情

大数据计算spark的安装和基础编程(代码片段)

文章目录1.使用SparkSell编写代码1.1启动SparkShell1.2读取文件1.3编写词频统计程序2.编写Spark独立应用程序2.1用Scala语言编写Spark独立应用程序2.2用Java语言编写Spark独立应用程序3.编程题3.1第一题3.2第二题1.使用SparkSell编写代码1.1启动Spa... 查看详情

spark---词频统计(代码片段)

...在已有的项目中创建的,可单独创建wordcount项目)①新建txt文件:wordcount.txt(文件内容:跟词频统计(一)中文件一致)②创建py文件:word.pyfrompysparkimportSparkContextfrompysparkimportSparkConfconf=SparkConf().s 查看详情

添加spark的相关依赖和打包插件(第六弹)(代码片段)

...0c;点击右下角enableauto-import自动下载步骤2右击main下的Scala文件先创建一个package并命名为cn.itcast步骤3创建WordCount.scala文件用于词频统计 alt+回车:选择导入包步骤3创建WordCount.scala文件用于词频统计 al 查看详情

在 Spark/Scala 中写入 HDFS,读取 zip 文件

】在Spark/Scala中写入HDFS,读取zip文件【英文标题】:WritingtoHDFSinSpark/Scalareadingthezipfiles【发布时间】:2017-02-1710:01:23【问题描述】:我正在编写一个spark/scala程序来读取ZIP文件,解压缩它们并将内容写入一组新文件。我可以让它... 查看详情

c++实现词频统计

...前还没找到解决方法,只能先手动输入文章了。ORZ...好好学习java,目前看来,处理字符串等问题还是java有成熟的解决方案。1/**2*对一段英文的词频统计34*/5#i 查看详情

spark基于scalaapi

使用spark对以下内容进行词频统计  (使用Scala语言)helloworldhellojavahelloscalahellospark  代码如下:/***Spark基于scalaapi的词频统计*/objectWordCount{defmain(args:Array[String]):Unit={//初始化SparkConfsetMaster:设置运行模式setAppName:设置应用名称 查看详情

综合练习:词频统计

...词频最大TOP20将分析对象存为utf-8编码的文件,通过文件读取的方式获得词频分析内容。#从记事本长读取文件f=open(‘news.txt‘,‘r‘,encoding=‘UTF-8‘)#打开文件news=f.read()#读取 查看详情

如何读取 csv 文件并将值分配给 spark scala 中的变量

】如何读取csv文件并将值分配给sparkscala中的变量【英文标题】:Howtoreadacsvfileandassignvaluestothevariableinsparkscala【发布时间】:2021-02-1717:35:09【问题描述】:我正在努力实现以下目标。我有包含以下内容的csv文件Sno,ColumnName,ColumnValue... 查看详情

spark基于javaapi的词频统计

 使用Spark对以下内容进行词频统计 (使用Java语言)helloworldhellojavahellocnblogs代码如下:/***Spark基于JavaApi的词频统计*/publicclassWordCountByJava{publicstaticvoidmain(String[]args){//初始化SparkConfsetAppName:设置应用名称setMas 查看详情

scala实战之spark用户在线时长和登录次数统计实例

接触spark后就开始学习scala语言了,因为有一点python和java的基础学习起来还行,今天在这里把我工作中应用scala编程统计分析用户行为日志的实例和大家分析一下,我这里主要讲一下用户的在线时长统计和登录次数统计算法实现... 查看详情

sparkstreaming读取kafka生产的数据,进行累计词频统计后将最新结果存入mysql数据库(代码片段)

...频累计统计,然后将最终结果存储到MySQL数据库中。学习记录~一、环境准备hadoop集群zookeeperkafka在idea中添加依赖 <!--spark-Stream实时处理--><dependency><groupId>org.apache.spark</groupId><artifactId>spark-streaming-kafka-0-10_... 查看详情

201671010431+词频统计软件项目报告

...java语言编写,对于java语言的掌握还不精通,需要平时多学习基础知识,多练习编写代码。开发过程十分艰难,通过这次的项目,更能激发自己对java的学习兴趣,以及对软件工程的深刻理解。GitHub仓库主页链接:https://github.com/ta... 查看详情

用scala在spark中读取压缩文件

】用scala在spark中读取压缩文件【英文标题】:readingcompressedfileinsparkwithscala【发布时间】:2017-06-1710:03:05【问题描述】:我正在尝试使用以下代码在数据帧/rdd中读取spark/scala中.gz文件的内容valconf=newSparkConf()valsc=newSparkContext(conf)val... 查看详情

Spark,Scala在从文件读取后无法正确创建视图

】Spark,Scala在从文件读取后无法正确创建视图【英文标题】:Spark,Scalanotabletocreateviewappropriatelyafterreadingfromfile【发布时间】:2019-01-2920:46:42【问题描述】:我在jdk1.8上使用spark和scala。我是Scala新手。我正在阅读一个文本文件(pat1... 查看详情

Spark - Scala:当 json 数据分布在多行时,读取 json 文件作为数据帧不起作用?

】Spark-Scala:当json数据分布在多行时,读取json文件作为数据帧不起作用?【英文标题】:Spark-Scala:Readjsonfileasdataframedoesn\'tworkwhenjsondataisspreadacrossmultiplelines?【发布时间】:2016-03-1513:06:02【问题描述】:Json数据:"blogID":"FJY26J1333",... 查看详情