spark分析网站排名热度

author author     2022-09-09     530

关键词:

需求:

/ 解决是一个各个子模块内的热度排名--》 排名得用sortBy ---》 (可能就是简单的排序,或者是二次排序) ---》

// 前面有一个wordCount---》 算出次数出来  --》 考虑什么作为key


//算的一个网站下面,每个子模块下面的网页热度前2名 :

// 算的一个网站下面,每个子模块下面的网页热度前2名 --》 每个子模块下面的网页的次数的前2名


// 在实际开发中,真正代码时间可能只占20-30% ,其他时间都在理解需求,想思路

import java.net.URL
import org.apache.spark.{SparkConf, SparkContext}
object Data_anlysis {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("data-anysis").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val linesRDD = sc.textFile("d://web_data.log")
    val rdd01 =linesRDD.map(line => {
      val lineSplited = line.split("	")
      (lineSplited(1),1)
    })
    val rdd02 = rdd01.reduceByKey(_+_)
    val rdd03 = rdd02.map(tup => {
      val url = tup._1;
      val host = new URL(url).getHost
      (host,url,tup._2)
    })
    val rdd04 = rdd03.groupBy(_._1)
    val rdd05 = rdd04.mapValues(iter => {
      iter.toList.sortBy(_._3).reverse.take(2)
    })
    println(rdd05.collect().toBuffer)
    sc.stop()
  }
}

运行结果会把网站的日志数据按照某一模块的要求列出排名前2个结果展示出来。

本文出自 “星月情缘” 博客,请务必保留此出处http://xuegodxingyue.blog.51cto.com/5989753/1950745

网站如何优化才能让排名四平八稳

...可以从搜索框下拉提示或者结果页底部相关长尾词,通过分析搜索引擎指数或者做推广时可以导出客户 查看详情

网站排名总是上不去的原因

网站排名需要经过系统的SEO优化,才能有排名。并不是任何一个网站都能达到好的排名。需要考虑的问题有很多,例如:网站的优化情况、时间、规模、关键词热度、竞争对手情况等等。想要有好的排名一定要进行适当优化,但... 查看详情

学会分析网站数据,让你的网站排名超越对手

作为一名优秀的seo优化专员,对同行的站点进行分析是必要的,通过对对手的网站分析,了解对手的网站收录情况以及站内布局等,就可以为自己的网站制定一套更好的优化方案,知己知彼才能百战百胜,了解对手才能更容易超... 查看详情

网站关键词的排名该如何优化?有什么优化工具吗?

如今关键词优化已经成为了大部分站长提高网站排名的方法,能够让更多的用户通过关键词进入到网站,然后了解企业及企业的产品或服务,从而促进交易,实现网站的价值。那么,提升网站排名的三个关键词优化方法是什么呢... 查看详情

django统计文章阅读量(或热度排名)(代码片段)

添加新字段为了记录文章的访问量,需要在文章的数据库表中新增一个用于存储阅读量的字段。 1/models.py23classPost(models.Model):4#其它已有字段5#新添views字段记录阅读量6views=models.PositiveInterField(default=0) 注意views字段的类型... 查看详情

spark实战之网站日志分析

  前面一篇应该算是比较详细的介绍了spark的基础知识,在了解了一些spark的知识之后相必大家对spark应该不算陌生了吧!如果你之前写过MapReduce,现在对spark也很熟悉的话我想你再也不想用MapReduce去写一个应用程序了,不是说M... 查看详情

python网络分析类-打开espn网站并输出大学橄榄球队的排名(代码片段)

查看详情

近期seo工作展望

...,丰富行业品牌,尽快提升排名。  1关键词排名查看分析要求:每天分别查看网站的关键词,包括企业词,行业词,长尾词的排名变化,并做记录。  目的:分析搜索引擎排名变化规率,从而提升关键词排名。  2竞争对... 查看详情

spark实践——基于sparkstreaming的实时日志分析系统(代码片段)

Spark实践——基于SparkStreaming的实时日志分析系统本文基于《Spark最佳实践》第6章Spark流式计算。我们知道网站用户访问流量是不间断的,基于网站的访问日志,即Weblog分析是典型的流式实时计算应用场景。比如百度统计,它可以... 查看详情

spark实战之:分析维基百科网站统计数据(java版)(代码片段)

欢迎访问我的GitHub在《寻找海量数据集用于大数据开发实战(维基百科网站统计数据)》一文中,我们获取到维基百科网站的网页点击统计数据,也介绍了数据的格式和内容,今天就用这些数据来练习基本的spark开发,<fontcolor=&qu... 查看详情

3.8spark用户日志分析

文章目录网站流量指标为什么要分析日志用户行为日志Spark日志分析日志挖掘的方法路径分析关联规则序列模式分类分析聚类分析统计协同过滤参考3.7SparkRDD编程本文讨论的日志处理方法中的日志,仅指用户访问日志。其实并没... 查看详情

spark2dataframe数据框常用操作之分析函数--排名函数row_number,rank,dense_rank,percent_rank

selectgender,      age,      row_number()over(partitionbygenderorderbyage)asrowNumber,      rank()over(partiti 查看详情

网站建设怎样做才能使其排名优先

...建设网站要定位准确要研究网站是为什么群体服务的,要分析这个群体的年龄段,有哪些爱好,分析的越准确越详细才能有助于网站的排名。每个阶段都要有明确推广目标,要结合群体的需要来制定目标,以取得在搜索引擎上出... 查看详情

在apache spark scala中排序和排名?

】在apachesparkscala中排序和排名?【英文标题】:Sortingandrankinginapachesparkscala?【发布时间】:2016-04-2818:28:20【问题描述】:我想在spark中做排名,如下:输入:5.65.65.66.28.15.55.5排名:11123000输出:RankInput05.505.515.615.615.626.238.1我想知... 查看详情

python天下第一!综合热度增长速度工作需求都是榜首|ieeespectrum年度排行...

...|公众号QbitAIIEEESpectrum刚刚公布了它们的2021年top编程语言排名,包括综合排名、趋势上涨最快、市场需求最多等排行。结果Python仍然是综合排名最高的一门语言。看过前些日子StackOverflow的年度编程语言排行榜的人可能会发现&... 查看详情

想要新网站提高关键字的排名?这里有妙招

...个过程中我们要注意哪些问题呢?除了坚持,就是要学会分析关键字、优化网站内部结构、更新高质量的内容等等方面。今天我们就来说一下新网站究竟怎样可以提升关键字的排名,希望对各位站长有所帮助。第一、一个新建设... 查看详情

4.4sparksql实现用户ip地址热度分析

文章目录 查看详情

java提取网站后台数据进行处理并排名(代码片段)

Java提取网站后台数据进行处理并排名一、网页分析截取的网站链接为:https://www.tiobe.com/tiobe-index/打开网站后,可以看到这个网站的编程语言排名情况。我们选择下图中的图表,这个图表中有2001-2019年的编程语言每个月的使用率... 查看详情