正文

后羿采集器——最良心的爬虫软件

卖山楂啦prss  卖山楂啦prss  2023-01-27  309

关键词：

2020 年如果让我推荐一款大众向的数据采集软件，那一定是后裔采集器了。和我之前推荐的 web scraper 相比，如果说 web scraper 是小而精的瑞士军刀，那后裔采集器就是大而全的重型武器，基本上可以解决所有的数据爬取问题。

下面我们就来聊聊，这款软件的优秀之处。

一、产品特点

1.跨平台

后羿采集器是一款桌面应用软件，支持三大操作系统：Linux、Windows 和 Mac，可以直接在官网上免费下载。

2.功能强大

后羿采集器把采集工作分为两种类型：智能模式和流程图模式。

智能模式就是加载网页后，软件自动分析网页结构，智能识别网页内容，简化操作流程。这种模式比较适合简单的网页，经过我的测试，识别准确率还是挺高的。

流程图模式的本质就是图形化编程。我们可以利用后裔采集器提供的各种控件，模拟编程语言中的各种条件控制语句，从而模拟真人浏览网页的各种行为爬取数据。

3.导出无限制

这个可以说是后羿采集器最良心的功能了。

市面上有很多的数据采集软件，出于商业化的目的，多多少少会对数据导出进行限制。不清楚套路的人经常用相关软件辛辛苦苦采集了一堆数据，结果发现导出数据需要花钱。

后羿采集器就没有这个问题，它的付费点主要是体现在 IP 池和采集加速等高级功能上，不但导出数据不花钱，还支持 Excel、CSV、TXT、HTML 多种导出格式，并且支持直接导出到数据库，对于普通的用户来说完全够用了。

4.教程详细

我在本文动笔之前曾经想过先写几篇后羿采集器的使用教程，但是看了他们的官网教程后就知道没这个必要了，因为写的实在是太详细了。

后羿采集器的官网提供了两种教程，一种是视频教程，每个视频五分钟左右；一种是图文教程，手把手教学。看完这两类教程后还可以看看他们的文档中心，写的也非常详细，基本覆盖了该软件的各个功能点。

二、基础功能

1.数据抓取

基本的数据抓取非常简单：我们只要点击「添加字段」那个按钮，就会出现一个选择魔棒，然后点选要抓取的数据，就能采集数据了：

2.翻页功能

我在介绍 web scraper 时曾把网页翻页分为 3 大类：滚动加载、分页器加载和点击下一页加载。

对于这三种基础翻页类型，后羿采集器也是完全支持的。

不像 web scraper 的分页功能散落在各种选择器上，后羿采集器的分页配置集中在一个地方上，只要通过下拉选择，就可以轻松配置分页模式。相关的配置教程可见官网教程：如何设置分页。

3.复杂表单

对于一些多项联动筛选的网页，后羿采集器也能很好的处理。我们可以利用后裔采集器里的流程图模式，去自定义一些交互规则。

例如下图，我就利用了流程图模式里的点击组件模拟点击筛选按钮，非常方便。

三、进阶使用

1.数据清洗

我在介绍 web scraper 时，说 web scraper 只提供了基础的正则匹配功能，可以在数据抓取时对数据进行初步的清洗。

相比之下，后羿采集器提供了更多的功能：强大的过滤配置，完整的正则功能和全面的文字处理配置。当然，功能强大的同时也带来了复杂度的提升，需要有更多的耐心去学习使用。

下面是官网上和数据清洗有关的教程，大家可以参考学习：

如何设置数据筛选讲解了基础的数据清洗功能，可以避免采集过程中的无效采集（例如采集某个微博博主的数据时，可以过滤第一条置顶微博的数据，只采集正常时间流的微博）
如何设置采集范围讲解了采集过程中过滤不需要的采集项，可以方便的自定义采集范围（例如采集豆瓣电影 TOP 250 时，只采集前 100 名的数据，而不是全量的 250 条数据）
如何对采集字段进行配置讲解了如何定制采集的最小字段，并且支持叠加处理，可以对一个字段使用多种匹配规则。（例如只想采集「1024 个赞」这条文本里的数字，就可以设置相应的规则过滤掉汉字）

2.流程图模式

本文前面也介绍过了，流程图模式的本质就是图形化编程。我们可以利用后裔采集器提供的各种控件，模拟编程语言中的各种条件控制语句，从而模拟真人浏览网页的各种行为爬取数据。

比如说下图这个流程图，就是模拟真人浏览微博时的行为去抓取相关数据。

经过我个人的几次测试，我认为流程图模式有一定的学习门槛，但是和从头学习 python 爬虫比起来，学习曲线还是缓和了不少。如果对流程图模式很感兴趣，可以去官网上学习，写的非常详细。

3.XPath/CSS/Regex

无论是什么爬虫软件，他们都是基于一定的规则去抓取数据的。XPath/CSS/Regex 就是几个常见的匹配规则。后羿采集器支持自定义这几种选择器，可以更灵活的选择要抓取的数据。

比如说某个网页里存在数据 A，但只有鼠标移到对应的文字上才会以弹窗的形式显示出来，这时候我们就可以自己写一个对应的选择器去筛选数据。

XPath

XPath 是一种在爬虫中运用非常广泛的数据查询语言。我们可以通过 XPath 教程去学习这个语言的运用。

CSS

这里的 CSS 特指的 CSS 选择器，我之前介绍 web scraper 的高级技巧时，讲解过 CSS 选择器的使用场景和注意事项。感兴趣的人可以看我写的 CSS 选择器教程。

Regex

Regex 就是正则表达式。我们也可以通过正则表达式去选择数据。我也写过一些正则表达式的教程。但是个人认为在字段选择器这个场景下，正则表达式没有 XPath 和 CSS 选择器好用。

4.定时抓取/IP 池/打码功能

这几个都是后羿采集器的付费功能，我没有开会员，所以也不知道使用体验怎么样。在此我做个小小的科普，给大家解释一下这几个名词是什么意思。

定时抓取

定时抓取非常好理解，就是到了某个固定的时间爬虫软件就会自动抓取数据。市面上有一些比价软件，背后就是运行着非常多的定时爬虫，每隔几分钟爬一下价格信息，以达到价格监控的目的。

IP 池

互联网上 90% 的流量都是爬虫贡献的，为了降低服务器的压力，互联网公司会有一些风控策略，里面就有一种是限制 IP 流量。比如说互联网公司后台检测到某个 IP 有大量的数据请求，超过了正常范围，就会暂时的封锁这个 IP，不返回相关数据。这时候爬虫软件就会自己维护一个 IP 池，用不同的 IP 发送请求，降低 IP 封锁的概率。

打码功能

这个功能就是内置了验证码识别器，可以实现机器打码 or 手动打码，也是绕过网站风控的一种方法。

四、总结

个人认为后羿采集器是一款非常优秀的数据采集软件。它提供的免费功能可以解决绝大部分编程小白的数据抓取需求。

如果有一些编程基础，可以明显的看出一些功能是对编程语言逻辑的封装，比如说流程图模式是对流程控制的封装，数据清洗功能是对字符串处理函数的封装。这些高阶功能扩展了后羿采集器的能力，也增大了学习难度。

我个人看来，如果是轻量的数据抓取需求，更倾向于使用 web scraper；需求比较复杂，后羿采集器是个不错的选择；如果涉及到定时抓取等高级需求，自己写爬虫代码反而更加可控。

总而言之，后羿采集器是一款优秀的数据采集软件，非常推荐大家学习和使用。

联系我

因为文章发在各大平台上，账号较多不能及时回复评论和私信，有问题可关注公众号 ——「卤蛋实验室」，（或 wx 搜索egglabs）关注上车防失联。

两款傻瓜化小白爬虫工具推荐(代码片段)

一、八爪鱼采集器　　八爪鱼采集器是一款功能非常强大、操作容易的网页数据采集利器，界面简洁大方，能快速自动采集并导出、编辑数据，连网页图片上的文字也能解析并提取出来，采集内容广泛。　　功能介绍　　1、金... 查看详情

后羿采集器怎么抓取慕课网页评论

参考技术A解决方法如下：1.打开软件之后进入到软件的主界面，然后在主界面中输入自己想要采集内容的那一个网站的网址，输入之后点击智能采集按钮。2.点击开始采集之后用户需要耐心的等待一会，等到软件界面中出现采集... 查看详情

网络爬虫软件有哪些比较知名的？

...息，下面我简单介绍一下这个软件：1.首先，安装火车头采集器，这个直接在官网上下载就行，如下，安装包也就30M左右，一个exe文件，直接双击安装：2.安装完成后，打开这个软件，主界面如下，接着我们就可以直接新建任务... 查看详情

第九周操作系统+后羿采集器

先是进行了操作系统的复习整理后是使用后羿采集器进行数据爬取查看详情

pythonbeautifulsoup采集itbookspdf,免费下载(代码片段)

http://www.allitebooks.org/是我见过最良心的网站，所有书籍免费下载周末无聊，尝试采集此站所有Pdf书籍。采用技术python3.5Beautifulsoup分享代码最简单的爬虫，没有考虑太多的容错，建议大家尝试的时候，温柔点，别把这个良心网站... 查看详情

网络爬虫抓取数据有啥好的应用

...码的知识。如果是没有代码知识的小白可以试试用成熟的采集器。目前市面比较成熟的有八爪鱼，后羿等等，但是我个人习惯八爪鱼的界面，用起来也好上手，主要是他家的教程容易看懂。可以试试。参考技术A网络爬虫可以根... 查看详情

你用过的最良心的软件是什么样的？

良心软件太多了，很多是初期良心但是中间就使坏了，还有的是最后要死的时候还能良心一下，所以我们来看一下那些良心软件吧！ 1、永久免费。只要是免费的就是好的，就可以算作是有良心了。2、界面美观。美的东西大... 查看详情

pythonbeautifulsoup采集itbookspdf,免费下载

...虑太多的容错，建议大家尝试的时候，温柔点，别把这个良心网站搞挂掉了#www.qingmiaokeji.cn30frombs4importBeautifulSoupimportrequestsimportjsonsiteUrl=‘http://www.allitebooks.org/‘defcategory():resp 查看详情

如何用最简单的python爬虫采集整个网站

采集网站数据并不难，但是需要爬虫有足够的深度。我们创建一个爬虫，递归地遍历每个网站，只收集那些网站页面上的数据。一般的比较费时间的网站采集方法从顶级页面开始（一般是网站主页），然后搜索页面上的所有链接... 查看详情

如何用爬虫抓取股市数据并生成分析报表

...配置几步就可以采集。如果网站比较复杂，这个软件自带爬虫脚本语言，通过写几行脚本，就可以采集所有的公开数据。软件还自带免费的数据库，数据采集直接存入数据库，也可以导出成excel文件。如果自己不想配置，前嗅可... 查看详情

目前三款国内最靠谱最良心的杀毒软件推荐|国内杀毒软件哪个好用？威航软件园诚意推荐这三个

...不能同日而语，不过也有知道自己本职工作该干啥的良心杀毒软件，今天威航软件园就根据自己的经验体会，为大家分享目前三款国内最靠谱最良心的杀毒软件推荐：三款国内最靠谱最良心的杀毒软件推荐第一款&... 查看详情

数据采集器与爬虫相比都有哪些优势？

...使用各种的工具去采集。目前批量采集数据的方法有：1.采集器采集器是一种软件，通过下载安装之后才可以进行使用，能够批量的采集一定数量的网页数据。具有采集、排版、存储等的功能。2.爬虫代码通过编程语言Python、JAVA... 查看详情

官方数据网站可以使用爬虫软件吗

参考技术A爬虫作为一种计算机技术，具有技术中立性，爬虫技术在法律上从来没有被禁止。爬虫的发展历史可以追溯到20年前，搜索引擎、聚合导航、数据分析、人工智能等业务，都需要基于爬虫技术。但是爬虫作为获取数据的... 查看详情

爬虫技术之数据采集？

...代码编程实现，比如用python、java等。除此之外也可以用采集器工具去采集网页数据。参考技术B随着互联网的高速发展，人们的生活与互联网的联系也越来越密切，许多工作与网络也是分不开联系，而信息收集则成为网络生活最... 查看详情

如何用爬虫抓取京东商品评价

...纳参考技术B爬虫需要编辑能力，如果没有基础也可以用采集器工具，京东等店商平台数据的评论也是可以通过工具去采集的，即使不会编程也可以实现店商数据的爬取。参考技术C有简单的方法的，用电商图片助手，直接可以... 查看详情

爬虫:新浪微博爬虫的最简单办法(代码片段)

...属性。既然说是最简单的办法，那么我们就得先分析微博爬虫可能选择的几个目标网址，首先肯定是最常见的web网站了还有就是m站，也就是移动端网页以及一个无法旧版本的访问入口了，首先可以排除web站了，这个是最麻烦的... 查看详情

如何对美团网商家数据进行采集或爬虫

...设置搞定了他们。参考技术A首先要设置IP代理池，美团禁爬虫非常严格。其次控制访问时间，随机选择请求头。然后用python写爬虫去爬取。参考技术B能解释的一定是大神！查看详情

一步一步教你powerbi利用爬虫获取天气数据分析

　　对于爬虫大家应该不会陌生，我们首先来看一下爬虫的定义：网络爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页，自动获取网页内容的应用程序。看到定义我们应... 查看详情