正文

在nutch中每个站点爬一定深度

author  author  2022-12-29  611

关键词：

我正在尝试使用Nutch V1.12抓取大量网站，而我抓取网站没有问题我无法控制爬网，就像我想要的那样。问题主要在于，似乎没有可能进行爬行，其深度从它到达的每个新主机计算。据我所知，爬行脚本中的一轮被认为是爬行的深度。但这意味着在爬网早期找到的网站比以后找到的网站爬行得更多。

有没有办法实现每个站点的爬网深度的这种功能？

答案

问题主要在于，似乎没有可能进行爬行，其深度从它到达的每个新主机计算。

正确，深度从种子计算，无论URL在特定站点中的位置。

据我所知，爬行脚本中的一轮被认为是爬行的深度。

不会。深度由得分深度插件生成，无论轮数如何。它们通常是相同的，特别是在爬行开始时，但不一定。

但这意味着在爬网早期找到的网站比以后找到的网站爬行得更多。

是。深度限制对于我们希望爬行保持在种子边界内的情况非常有用。对于超出原始域的爬网，您将获得突出显示的限制。

应该可以修改代码，以便在更改主机或域时重置深度，但这会导致各种问题，例如：如果目标URL与根不对应怎么办？例如你得到深度为0的domain.com/path但如果后者有一个指向domain.com/的链接，它的深度为1，这是不直观的。

我认为在Nutch中，术语深度有点含糊不清或误导。 'step'将是一个更准确的，因为它不假设站点的层次结构中的任何位置。

另一答案

我通过更改scoring-depth插件来重置每个新主机来解决这个问题。要知道哪些主机是新的，我列出了我输入所有主机的列表。因此，如果主机不在列表中，我通过添加新主机更新列表，然后将深度重置为0。

scrapy爬知乎问题，每次爬到240000多以后就结束了，啥原因

　　发网络爬虫应该选择Nutch、Crawler4j、WebMagic、scrapy、WebCollector其按照我经验随便扯淡：面说爬虫基本3类：1.布式爬虫：Nutch　　2.JAVA单机爬虫：Crawler4j、WebMagic、WebCollector　　3.非JAVA单机爬虫：scrapy　　第类：布式爬虫　　爬... 查看详情

javajsoup爬虫怎么防止重复爬取

...进行查重处理顺便为了方便控制。建议设置爬取深度，在一定深度内进行爬取。参考技术A方法/步骤本次经验是通过导入外部Jar进行对网页数据进行抓取，以下是我工程的分布图。本例子中是使用Jquery进行处理页面事件页面展示... 查看详情

nutch源码阅读进程3

走了一遍Inject和Generate，基本了解了nutch在执行爬取前的一些前期预热工作，包括url的过滤、规则化、分值计算以及其与mapreduce的联系紧密性等，自我感觉nutch的整个流程是很缜密的，起码从前面两个过程看是这样的。前期回顾：... 查看详情

Apache Nutch、HBase、Hadoop、Solr、Gora 的困惑

】ApacheNutch、HBase、Hadoop、Solr、Gora的困惑【英文标题】：ConfusioninApacheNutch,HBase,Hadoop,Solr,Gora【发布时间】：2015-03-2619:26:43【问题描述】：我对所有这些术语都很陌生，因此需要一些时间来理解它。但我有一些困惑。如果我错了，... 查看详情

爬了个爬性能相关及深度优先与广度优先

性能相关在编写爬虫时，性能的消耗主要在IO请求中，当单进程单线程模式下请求URL时必然会引起等待，从而使得请求整体变慢。importrequestsdeffetch_async(url):response=requests.get(url)returnresponseurl_list=[‘http://www.github.com‘,‘http://ww... 查看详情

选择ul到一定深度

...argin:0;padding:0;问题：是否有选择器，所以我可以使用它为每个n-deepul应用样式？例如：ul>ul【问题讨论】：“每个n-deepul”是什么意思？您想在特定级别为每个ul设置样式吗？什么不适用于您拥有查看详情

在深度强化学习中，我是计算每个小批量的损失还是小批量中的每个条目的损失？

】在深度强化学习中，我是计算每个小批量的损失还是小批量中的每个条目的损失？【英文标题】：DoIcalculateonelossperminibatchoronelossperentryinminibatchindeepreinforcementlearning?【发布时间】：2020-09-0319:04:18【问题描述】：神经网络和Pytorc... 查看详情

java示例代码_在Nutch 2.1 solrindex命令中过滤URL

java示例代码_在Nutch 2.1 solrindex命令中过滤URL 查看详情

是否需要为它们所针对的每个站点编写爬虫程序？

】是否需要为它们所针对的每个站点编写爬虫程序？【英文标题】：Doscrapersneedtobewrittenforeverysitetheytarget?【发布时间】：2015-02-2414:59:15【问题描述】：我是新手。我写了一个scraper，它将刮掉Maplin商店。我使用Python作为语言并使... 查看详情

scrapy通用爬虫及反爬技巧(代码片段)

...避免被某个网站的限制所限制爬取的速度(为表示尊重，每个站点爬取速度很慢但同时爬取很多站点)。Scrapy默认设置是对特定爬虫做了优化，而不是通用爬虫。不过，鉴于scrapy使用了异步架构，其对通用爬虫也十分适用。总结了... 查看详情

shshell函数用于爬网dns树并在每个父区域中搜索srv记录。一旦找到第一个srv记录，它将退出。(代码片段)

查看详情

您以前是不是使用过弹性搜索索引 nutch 抓取结果？

】您以前是不是使用过弹性搜索索引nutch抓取结果？【英文标题】：Haveyouindexednutchcrawlresultsusingelasticsearchbefore?您以前是否使用过弹性搜索索引nutch抓取结果？【发布时间】：2011-08-2602:34:42【问题描述】：有没有人有幸为nutch编写... 查看详情

23.反爬案例：不登录不给，要数据请先登录我的站点(代码片段)

登录之后，可以查看数据，是部分站点常用规则，本篇博客将在爬虫训练场中实现该需求。文章目录安装必备模块建立models建立login_form表单文件flask_wtf中FlaskForm类建立登录视图函数配置login.html页面安装必备模块实现P... 查看详情

23.反爬案例：不登录不给，要数据请先登录我的站点(代码片段)

宅基地中每个站点的单独 php 版本不起作用

】宅基地中每个站点的单独php版本不起作用【英文标题】：Individualphpversionsforeachsiteinhomesteadnotworking【发布时间】：2020-06-0210:44:48【问题描述】：在生产中，我有两台服务器运行php7.1和php7.3。除了php版本，环境是一样的。我正在... 查看详情

Nutch FetchData 作业太慢

】NutchFetchData作业太慢【英文标题】：NutchFetchDatajobistooslow【发布时间】：2019-08-2211:42:48【问题描述】：我正在使用ApacheNutch以编程方式在EMR集群中以6个周期抓取大约7000个URL（在抓取过程中几乎没有自定义map-reduce作业）。版本是... 查看详情

在座的python爬虫工程师，你敢爬律师事务所站点吗？(代码片段)

...景⛳️反爬实战⛳️反爬总结⛳️实战场景本次要分析的站点是credit.acla.org.cn/，一个律师群体常去的站点，作为一个爬虫工程师，这简直是送自己去喝茶。该站点反爬手段特别多，分析起来也特别有趣。⛳️反爬实战打开开发... 查看详情