在nutch中每个站点爬一定深度

author author     2022-12-29     611

关键词:

我正在尝试使用Nutch V1.12抓取大量网站,而我抓取网站没有问题我无法控制爬网,就像我想要的那样。问题主要在于,似乎没有可能进行爬行,其深度从它到达的每个新主机计算。据我所知,爬行脚本中的一轮被认为是爬行的深度。但这意味着在爬网早期找到的网站比以后找到的网站爬行得更多。

有没有办法实现每个站点的爬网深度的这种功能?

答案

问题主要在于,似乎没有可能进行爬行,其深度从它到达的每个新主机计算。

正确,深度从种子计算,无论URL在特定站点中的位置。

据我所知,爬行脚本中的一轮被认为是爬行的深度。

不会。深度由得分深度插件生成,无论轮数如何。它们通常是相同的,特别是在爬行开始时,但不一定。

但这意味着在爬网早期找到的网站比以后找到的网站爬行得更多。

是。深度限制对于我们希望爬行保持在种子边界内的情况非常有用。对于超出原始域的爬网,您将获得突出显示的限制。

应该可以修改代码,以便在更改主机或域时重置深度,但这会导致各种问题,例如:如果目标URL与根不对应怎么办?例如你得到深度为0的domain.com/path但如果后者有一个指向domain.com/的链接,它的深度为1,这是不直观的。

我认为在Nutch中,术语深度有点含糊不清或误导。 'step'将是一个更准确的,因为它不假设站点的层次结构中的任何位置。

另一答案

我通过更改scoring-depth插件来重置每个新主机来解决这个问题。要知道哪些主机是新的,我列出了我输入所有主机的列表。因此,如果主机不在列表中,我通过添加新主机更新列表,然后将深度重置为0。

scrapy爬知乎问题,每次爬到240000多以后就结束了,啥原因

  发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector其按照我经验随便扯淡:面说爬虫基本3类:1.布式爬虫:Nutch  2.JAVA单机爬虫:Crawler4j、WebMagic、WebCollector  3.非JAVA单机爬虫:scrapy  第类:布式爬虫  爬... 查看详情

javajsoup爬虫怎么防止重复爬取

...进行查重处理顺便为了方便控制。建议设置爬取深度,在一定深度内进行爬取。参考技术A方法/步骤本次经验是通过导入外部Jar进行对网页数据进行抓取,以下是我工程的分布图。本例子中是使用Jquery进行处理页面事件页面展示... 查看详情

nutch源码阅读进程3

走了一遍Inject和Generate,基本了解了nutch在执行爬取前的一些前期预热工作,包括url的过滤、规则化、分值计算以及其与mapreduce的联系紧密性等,自我感觉nutch的整个流程是很缜密的,起码从前面两个过程看是这样的。前期回顾:... 查看详情

Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑

】ApacheNutch、HBase、Hadoop、Solr、Gora的困惑【英文标题】:ConfusioninApacheNutch,HBase,Hadoop,Solr,Gora【发布时间】:2015-03-2619:26:43【问题描述】:我对所有这些术语都很陌生,因此需要一些时间来理解它。但我有一些困惑。如果我错了,... 查看详情

爬了个爬性能相关及深度优先与广度优先

性能相关 在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢。importrequestsdeffetch_async(url):response=requests.get(url)returnresponseurl_list=[‘http://www.github.com‘,‘http://ww... 查看详情

选择ul到一定深度

...argin:0;padding:0;问题:是否有选择器,所以我可以使用它为每个n-deepul应用样式?例如:ul>ul【问题讨论】:“每个n-deepul”是什么意思?您想在特定级别为每个ul设置样式吗?什么不适用于您拥有 查看详情

在深度强化学习中,我是计算每个小批量的损失还是小批量中的每个条目的损失?

】在深度强化学习中,我是计算每个小批量的损失还是小批量中的每个条目的损失?【英文标题】:DoIcalculateonelossperminibatchoronelossperentryinminibatchindeepreinforcementlearning?【发布时间】:2020-09-0319:04:18【问题描述】:神经网络和Pytorc... 查看详情

java示例代码_在Nutch 2.1 solrindex命令中过滤URL

java示例代码_在Nutch 2.1 solrindex命令中过滤URL 查看详情

是否需要为它们所针对的每个站点编写爬虫程序?

】是否需要为它们所针对的每个站点编写爬虫程序?【英文标题】:Doscrapersneedtobewrittenforeverysitetheytarget?【发布时间】:2015-02-2414:59:15【问题描述】:我是新手。我写了一个scraper,它将刮掉Maplin商店。我使用Python作为语言并使... 查看详情

scrapy通用爬虫及反爬技巧(代码片段)

...避免被某个网站的限制所限制爬取的速度(为表示尊重,每个站点爬取速度很慢但同时爬取很多站点)。Scrapy默认设置是对特定爬虫做了优化,而不是通用爬虫。不过,鉴于scrapy使用了异步架构,其对通用爬虫也十分适用。总结了... 查看详情

shshell函数用于爬网dns树并在每个父区域中搜索srv记录。一旦找到第一个srv记录,它将退出。(代码片段)

查看详情

您以前是不是使用过弹性搜索索引 nutch 抓取结果?

】您以前是不是使用过弹性搜索索引nutch抓取结果?【英文标题】:Haveyouindexednutchcrawlresultsusingelasticsearchbefore?您以前是否使用过弹性搜索索引nutch抓取结果?【发布时间】:2011-08-2602:34:42【问题描述】:有没有人有幸为nutch编写... 查看详情

23.反爬案例:不登录不给,要数据请先登录我的站点(代码片段)

登录之后,可以查看数据,是部分站点常用规则,本篇博客将在爬虫训练场中实现该需求。文章目录安装必备模块建立models建立login_form表单文件flask_wtf中FlaskForm类建立登录视图函数配置login.html页面安装必备模块实现P... 查看详情

23.反爬案例:不登录不给,要数据请先登录我的站点(代码片段)

登录之后,可以查看数据,是部分站点常用规则,本篇博客将在爬虫训练场中实现该需求。文章目录安装必备模块建立models建立login_form表单文件flask_wtf中FlaskForm类建立登录视图函数配置login.html页面安装必备模块实现P... 查看详情

宅基地中每个站点的单独 php 版本不起作用

】宅基地中每个站点的单独php版本不起作用【英文标题】:Individualphpversionsforeachsiteinhomesteadnotworking【发布时间】:2020-06-0210:44:48【问题描述】:在生产中,我有两台服务器运行php7.1和php7.3。除了php版本,环境是一样的。我正在... 查看详情

Nutch FetchData 作业太慢

】NutchFetchData作业太慢【英文标题】:NutchFetchDatajobistooslow【发布时间】:2019-08-2211:42:48【问题描述】:我正在使用ApacheNutch以编程方式在EMR集群中以6个周期抓取大约7000个URL(在抓取过程中几乎没有自定义map-reduce作业)。版本是... 查看详情

在座的python爬虫工程师,你敢爬律师事务所站点吗?(代码片段)

...景⛳️反爬实战⛳️反爬总结⛳️实战场景本次要分析的站点是credit.acla.org.cn/,一个律师群体常去的站点,作为一个爬虫工程师,这简直是送自己去喝茶。该站点反爬手段特别多,分析起来也特别有趣。⛳️反爬实战打开开发... 查看详情

在座的python爬虫工程师,你敢爬律师事务所站点吗?(代码片段)

...景⛳️反爬实战⛳️反爬总结⛳️实战场景本次要分析的站点是credit.acla.org.cn/,一个律师群体常去的站点,作为一个爬虫工程师,这简直是送自己去喝茶。该站点反爬手段特别多,分析起来也特别有趣。⛳️反爬实战打开开发... 查看详情