履带式与刮板式

     2023-02-15     221

关键词:

【中文标题】履带式与刮板式【英文标题】:crawler vs scraper 【发布时间】:2011-03-13 13:17:20 【问题描述】:

有人可以根据范围和功能区分爬虫和抓取工具吗?

【问题讨论】:

这些术语没有精确的定义。有使用示例吗? 我想编写一个应用程序,它根据一些基于 xpath 的规则(遵循特定的超链接)遍历网站,然后从一些叶页面中提取数据。所以它包括爬取和抓取。我需要为这两个步骤找到最好的工具。 很多平台都非常擅长下载网页并应用正则表达式来提取链接或抓取的值。使用你所知道的。 另见:***.com/questions/4327392/crawling-vs-web-scraping 【参考方案1】:

爬虫获取网页——即,给定一个起始地址(或一组起始地址)和一些条件(例如,要深入多少链接,要忽略的文件类型),它会从起点。

抓取工具获取已下载的页面,或者更一般意义上的格式化显示数据,并(尝试)从这些页面中提取数据,以便(例如)将其存储在数据库中并根据需要进行操作。

根据您使用结果的方式,抓取可能会侵犯信息所有者的权利和/或有关网站使用的用户协议(在某些情况下,抓取也违反了后者)。许多站点在其根目录中包含一个名为 robots.txt 的文件(即具有 URL http://server/robots.txt),以指定爬虫程序应如何(以及是否)处理该站点 - 特别是,它可以列出爬虫程序不应的(部分)URL尝试访问。如果需要,可以为每个爬虫(用户代理)单独指定这些。

【讨论】:

【参考方案2】:

爬虫通过链接浏览网页。一个例子是获取页面索引的谷歌机器人。爬虫从表单中提取值,但不一定与网络有任何关系。

【讨论】:

爬虫从 HTML 中提取值,不一定是表单。 抓取工具从屏幕中提取价值,不一定是 HTML。例如,我曾经使用刮板从旧的大型机表单中提取值。 我不能给 Google 免费通行证。谷歌是一个爬虫,是的,但它也是一个爬虫。他们如何在搜索结果中显示元描述?标题?帖子的日期?它们是终极爬虫和刮刀。【参考方案3】:

网络爬虫在逻辑中获取链接(Urls - 页面),scraper 从 HTML 中获取值(提取)。

有很多网络爬虫工具。 Visit page 看一些。任何 XML - HTML 解析器都可以用来从抓取的页面中提取(scrape)数据。 (我推荐Jsoup解析和提取数据)

【讨论】:

【参考方案4】:

一般来说,爬虫会跟随链接到达众多页面,而爬虫在某种意义上只是拉取在线显示的内容,不会到达更深层次的链接。

最典型的爬虫是 google bots,它会跟随链接到达你网站上的所有网页,如果他们觉得有用,就会索引内容(这就是为什么你需要 robots.txt 来告诉你哪些内容你不知道想要被索引)。所以我们可以在它的网站上搜索这样的内容。而刮板的目的只是为了个人使用而拉取内容,不会对其他人产生太大影响。

但是,现在爬虫和爬虫没有明显区别,因为一些自动网络爬取工具还允许您通过跟踪链接来爬取网站,例如 Octoparse 和 import.io。它们不像google bots那样的爬虫,但它们能够自动爬取网站以获取大量数据,而无需编码。

【讨论】:

【参考方案5】:

爬虫和爬虫并不总是能区分,我的意思是 - 你可以找到爬虫,事实上,Scraper Crawler 正在做这两者并相应地命名:

它会抓取一个 URL,即索引该主 URL 中的所有 URL 抓取深度是索引在 URL 树中的深度 然后它会抓取您在正则表达式中定义的任何内容

【讨论】:

【参考方案6】:

我知道这个问题已经很老了,但无论如何我都会为在这里想知道的新人做出回应。

据我所知,这两个术语由于相似性而经常相互混淆,人们经常将它们称为同一事物。

但是,它们并不完全相同。爬虫(或蜘蛛)将跟踪它从起始页爬取的页面中的每个链接。这就是为什么它也被称为蜘蛛机器人,因为它会创建一种蜘蛛网的页面。

爬虫会从页面中提取数据,通常是从使用爬虫下载的页面中。

如果您对其中任何一个感兴趣,可以试试Norconex HTTP Collector。

【讨论】:

textcraigslist履带式起重机(代码片段)

查看详情

actionscript3as3履带式装载机进展(代码片段)

查看详情

pythonsite履带(代码片段)

查看详情

ruby2ch履带(代码片段)

查看详情

动作捕捉技术在四足机器人研究中的应用

轮式/履带式移动机器人可以胜任很多场景的探索、运输的任务,但是随着应用空间的拓展,需要机器人在山地、峭壁、丛林、雪地等崎岖复杂的地形的任务也逐渐增多,轮式/履带式机器人难以在这类地形中移动。自然界中动物... 查看详情

徐工挖掘机270是啥发动机型号

...考技术A设备型号XE270DK机型简称270挖机吨位(t)26.4行走方式履带式铲斗形式反铲工况用途通用型发动机系统型号QSB7型式4冲程、直喷、水冷、涡轮增压、空空中冷额定功率(kW)150额定转速(r/min)2050最大扭矩(N·m)825总排量(L)6.7气缸数(个... 查看详情

初学者入门阿里云haas510开板式dtu(2.0版本)--510-as(代码片段)

摘要:相比于haas600,haas团队推出的haas510价格更加便宜,做到了百元以内。2.0版本比1.0版本布局更加合理,USB、用户串口和调试串口采用了不同的硬件接头,不会再发生误插的危险。阿里云官方今天用一个页... 查看详情

板式定制家具mes管理系统功能5个层次模型

根据板式定制家具MES管理系统功能以及信息传递特征,建立MES管理系统功能层次模型,可将MES系统的功能分为数据采集层、基础数据层、数据访问层、业务功能层和表示层5个层次: 1、数据采集层,位于系统底层... 查看详情

哪位大神能帮我写一个arduino控制两个直流电机正反转,加减速和拐弯的程序啊?arduino程序,非常感谢。

...制程序,使用的是双路H桥来驱动电机的,不过不是控制履带式的,稍微改动了下。  (注意,本程序仅适用于履带式小车,即左右电机正反转实现前后及转向,程序支持前后左右混控)//********************************//遥控帧... 查看详情

技术分享|如何让无人机实现室内自主搜寻?

...完成高风险的工作呢?我首先想到的时候关于轮式、履带式地面机器人,可是我发现火灾后的现场环境总是复杂的,地面环境更是崎岖不平存在楼梯的房间更 查看详情

带式输送机td75型,矩形头尾架,b1000mm,v=1.6m/h,q=500t/h,l=18.5m,h=1.95m,啥意

参考技术A输送机带宽1000mm带速1.6米/秒生产量500吨/小时长度18.6米(头尾滚筒距离)头部滚筒中心高1.95米 查看详情

somebot机械臂智能坦克车应该这样玩儿!(代码片段)

...进阶玩法,把机械臂安装到一个智能坦克车上,履带式坦克车拥有超强的越野能力,双侧双电机驱动又使其具有灵活的机动性,两者叠加之后俨然就是一架军警排爆车啊! 查看详情

somebot机械臂智能坦克车应该这样玩儿!(代码片段)

...进阶玩法,把机械臂安装到一个智能坦克车上,履带式坦克车拥有超强的越野能力,双侧双电机驱动又使其具有灵活的机动性,两者叠加之后俨然就是一架军警排爆车啊! 查看详情

游歌科技助力润邦重机智能物联抓料机成功交付

近日,润邦重机自主研发制造的GENMA42吨、GENMA32吨6台履带式全液压智能抓料机在客户现场正式交付。GENMA42吨是润邦重机专为铁路货场散料装卸作业研发制造的新产品,具有工作效率高、场地适应性强、节能降耗等特点。抓料机前置... 查看详情

如何利用rosmoveit快速搭建机器人运动规划平台

...近几年各种移动机器人开始涌现出来,不论是轮式的还是履带式的,如何让移动机器人移动都是最核心的工作。要让机器人实现环境感知、机械臂控制、导航规划等一系列功能,就需要操作系统的支持,而ROS就是最重要的软件平... 查看详情

如何设计一款基于ros的移动机器人

...近几年各种移动机器人开始涌现出来,不论是轮式的还是履带式的,如何让移动机器人移动都是最核心的工作。要让机器人实现环境感知、机械臂控制、导航规划等一系列功能,就需要操作系统的支持,而ROS就是最重要的软件平... 查看详情

word文档下划线无法显示的解决方法

...rd选项”3、点击“高级”,将右侧进度条拉到最后,找到板式选项,并点击打开4、打开“板式选项”选项卡之后,往下拉进度条,找到“为尾部空格添加下划线”选项,点击选择此项,确认空格内出现对号后,点击确定退出。5... 查看详情

ofd电子证照模版制作工具--(采用wpf开发)

...是其中非常重要的一个应用。同一类电子证照具有相同的板式、元数据;所以电子证照非常适合用模版来制作。模版就是板式样式固定,每个具体的证照只是文字或图片内容不同。比如结婚证,包含持证人、登记日期等,这些元... 查看详情