微博评论采集

八爪鱼大数据 八爪鱼大数据     2023-02-05     213

关键词:

采集场景

在微博主页(https://weibo.com/)登录后,打开微博博文链接,采集博文链接的评论数据。实例网址:https://weibo.com/1977661791/I7PgktlCh 。

采集字段

博主用户名、发布时间、博文、分享数、评论数、点赞数、评论、评论用户名、评论时间。

采集结果

采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:

教程说明

本篇更新时间:2020/05/18 八爪鱼版本:V8.1.12

如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。

采集步骤

步骤一:打开网页

步骤二、使用账号密码登录微博

步骤三、创建【循环-打开网页】,批量打开多个博文网址

步骤四、设置滚动

步骤五、提取微博字段 步骤

步骤六、创建循环翻页,以采集多页评论

步骤七、创建【循环点击】,展开评论下的回复

步骤八、创建【循环列表】,提取评论列表数据

步骤九、启动采集

以下为具体步骤:

步骤一、打开网页

在首页【输入框】中,输入微博主页网址 https://weibo.com/,点击【开始采集】,八爪鱼自动打开网址。

特别说明:

a. 打开网页后,如果开始【自动识别】,请点击【不再自动识别】或【取消识别】将其关掉。因为本文不适合使用【自动识别】。

b. 【自动识别】适用于自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据。详情点击查看 【自动识别】教程

步骤二、使用账号密码登录微博

要采集微博评论数据,首先需要登录。如果没有登录,采集过程中容易跳出登录提示,影响正常采集。

在八爪鱼中的登录步骤:

1、选中用户名输入框,在操作提示框中点击【输入文本】,输入账号。

2、选中密码输入框,在操作提示框中点击【输入文本】,输入密码。

3、选中【登录】按钮,在操作提示框中,点击【单击该按钮】。

等待一会后,成功登陆微博。

特别说明:

a. 一般情况下,微博输入账号密码即可登录。如果登录时出现验证码,八爪鱼也可解决,点击查看 处理需要登录的网页(含登录时有验证码)

b. 如果账号密码输错, 进入【输入文本】设置页面,更改成正确的即可。更改后再执行一次【点击元素】,即可完成登录。

步骤三、创建【循环-打开网页】,批量打开多个博文网址

创建【循环-打开网页】,批量打开多个博文网址,实现自动采集多个博文网址下的评论。

在【点击元素】步骤后,添加一个【循环】。

进入【循环】设置页面。选择循环方式为【网址列表】,点击 按钮,将我们准备好的网址(可同时输入多个网址,一行一个即可)后保存。

步骤四、设置滚动

打开微博主页后,默认只显示一部分评论列表。向下滚动页面3次,才会出现【查看更多】按钮,点击此按钮可查看更多评论。在八爪鱼中也需设置滚动。

进入【打开网页】设置页面,点开【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【滚动到底部】,【滚动次数】为3次,【每次间隔】2秒 并保存。

特别说明:

a. 设置中的滚动次数和时间间隔,请根据采集需求和网页加载情况进行设置,并非是一成不变的,具体请点击查看处理滚动加载数据的网页教程

步骤五、提取微博字段

选中网页中的目标字段,在操作提示框中点击【采集该元素的文本】。

所有文本类的字段都可这样提取,示例中提取了 用户名、发布时间、博文详情、评论数、点赞数 。

步骤六、创建循环翻页,以采集多页评论

1、创建循环翻页

找到并选中网页里的【查看更多】按钮,在操作提示上单击【循环点击单个元素】,创建【循环翻页】。

特别说明:

a. 创建【循环翻页】后,采集数据时八爪鱼就会自动点击【查看更多】按钮翻页,以加载更多微博评论。

2、设置翻页次数

针对这类通过【查看更多】进行翻页的网页,需设置一个合适的翻页次数。

进入【循环翻页】设置页面,点开【退出循环设置】,勾选【循环执行次数等于】10次。

特别说明:

a. 为什么通过【查看更多】进行翻页的网页,需设置一个合适的翻页次数?通过一定次数的【查看更多】翻页后,页面上展示出非常多的评论列表。这些列表同在一个页面,采集的时候都会被定为到。如果同时定位的列表过多,速度会慢,影响数据的正常采集。设置一个合理的翻页次数,可以控制同时定位到的列表,保障数据采集正常进行。

步骤七、创建【循环点击】,展开评论下的回复

微博的评论分为主评论和其回复。示例中,我们点击【共X条回复】展开评论下的回复。

如果主评论下的回复过多,需点击多次【共X条回复】,才能展开全部回复。示例中只考虑点击1次【共X条回复】的情况。

1、创建【循环点击】

① 在网页中选中第一个【共X条回复】按钮

② 在操作提示框中,点击【选中全部】

③ 继续选择【循环点击每个链接】

2、调整流程结构

我们需要的采集逻辑为:先点击【查看更多】进行翻页 → 点击【共X条回复】展开主评论下的回复。

但自动生成的采集流程不是这样的,需手动调整:选中【循环列表-点击元素1】整个步骤,将其拖入到【循环翻页】后。

特别说明:

a. 流程十分灵活,可根据需求调整各个步骤的位置。

3、修改【循环点击】XPath

一条博文下,【共X条回复】的个数是不确定的。默认生成的【循环点击】XPath,无法精准定位到每一个【共X条回复】,需手动修改。

进入【循环列表】设置页面,选择【循环方式】为【不固定元素列表】,修改XPath为://div[@class=“WB_text”]/a[@suda-uatrack] ,然后保存。

特别说明:

a. 这里需要一定的XPath知识。点击查看 XPath学习与实例教程 。

步骤八、创建【循环列表】,提取评论列表数据

1、建立【循环列表】

通过以下连续4步,采集所有评论列表数据:

1、选中页面上1个评论列表(注意一定要选中整个列表,包含所有所需字段)

2、在黄色操作提示框中,点击【选中子元素】

3、点击【选择全部】

4、点击【采集数据】

特别说明:

a. 经过以上连续4步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有评论列表,【提取数据】中的字段,对应着每个评论列表中的字段。启动采集以后,八爪鱼就会按照循环中的顺序依次提取每个列表中的字段。

b. 为何通过以上4步,可建立【循环-提取数据】?详情点击查看 列表数据采集教程 。

2、编辑字段

进入【提取数据】设置页面,可删除多余字段,修改字段名,移动字段顺序等。

3、增加【主评论】字段

以上操作是采集的评论回复。增加一个【主评论】字段,将主评论与评论回复数据一一对应起来。

进入【提取数据】设置页面,点击【+】按钮,选择【添加固定字段】,点击保存。

点击【自定义字段】后的 按钮,勾选【相对于当前循环里的XPath】,输入XPath://…/…/…/…/preceding-sibling::div[@class=“WB_text”][1] ,然后保存。

点击【自定义字段】后的【…】按钮,选择【自定义抓取方式】,选择【抓取文本】。

修改字段名为【主评论】。

点击【应用】保存以上所有设置。

步骤九、启动采集

1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。

特别说明:

a.【本地采集】是使用自己的电脑进行采集,【云采集】是使用八爪鱼提供的云服务器采集,点击查看本地采集与云采集详解。

2、采集完成后,选择合适的导出方式导出数据。支持导出为Excel、CSV、HTML、数据库等。这里导出为Excel。数据示例:

微博评论采集

采集场景在微博主页(https://weibo.com/)登录后,打开微博博文链接,采集博文链接的评论数据。实例网址:https://weibo.com/1977661791/I7PgktlCh。采集字段博主用户名、发布时间、博文、分享数、评论数、点赞数、评... 查看详情

7月8日是个大日子没人反对吧?于是我用python采集了一下微博热门评论~

话不说多,我们直接来看看我大天朝人民有多高兴!我们以围脖为例首先我们打开评论,点击右键选择检查或者按F12,打开开发者工具。选择network,但是这时候咱们是没有数据的,所以需要刷新一下。然后点击fetch/XHR,点击第... 查看详情

如何使用爬虫一键批量采集新浪微博内容

...,能知天下事。不知道你们用的是啥,反正小喵我用的是微博。现在微博上新闻是多的不得了,国家大事,社会日常,娱乐新闻。微博热搜上随便一个话题都可以引起网民们的激烈讨论。那么,该如何对这些庞大的数据进行采集... 查看详情

八爪鱼采集教程——京东商品评论采集

京东商品评论信息采集 介绍采集使用八爪鱼7.0采集京东商品评论数据的方法更多相关教程可以到八爪鱼教程中心查看:http://www.bazhuayu.com/tutorials?version=v7.0八爪鱼下载:http://www.bazhuayu.com/download 采集网站:http://item.jd.com/11... 查看详情

爬虫实战:爬微博评论

爬虫实战(九):爬微博评论一、网站分析1、页面分析安倍jj了,那就让我们来看一看大家对此的评价如何?并且做词云我们对这条微博的评论进行爬取首先,还是先分析一下评论数据吧:通过源码分析,我们发现,微博的评论... 查看详情

微博新增“炸毁”评论功能,网友:新型掩耳盗铃

微博上新有趣新功能。10月27日消息,多位网友表示,微博上线“炸毁”评论区的新功能,可以炸毁自己微博下方其他用户发表的评论内容。被炸毁的评论将对你隐藏,你自己看不见,而其他人依旧可以看到和... 查看详情

微博在用户页面上的评论(Ruby on Rails)

】微博在用户页面上的评论(RubyonRails)【英文标题】:Micropost\'scommentsonuserspage(RubyonRails)【发布时间】:2012-03-2823:30:35【问题描述】:在用户页面上我有很多微博,我想为每个微博添加评论表单和cmets。我有三个模型:用户、微... 查看详情

python爬虫|微博热搜定时爬取,堪称摸鱼神器(代码片段)

...。相信大家在工作无聊时,总想掏出手机,看看微博热搜在讨论什么有趣的话题,但又不方便直接打开微博浏览,今天就和大家分享一个有趣的小爬虫,定时采集微博热搜榜&热评,下面让我们来看看具... 查看详情

vue教程2-07微博评论功能

vue教程2-07微博评论功能<!doctypehtml><html><head><metacharset="utf-8"><title></title><linkhref="style/weibo.css"rel="stylesheet"type="text/css"/><style>[v-cloak 查看详情

后羿采集器怎么抓取慕课网页评论

参考技术A解决方法如下:1.打开软件之后进入到软件的主界面,然后在主界面中输入自己想要采集内容的那一个网站的网址,输入之后点击智能采集按钮。2.点击开始采集之后用户需要耐心的等待一会,等到软件界面中出现采集... 查看详情

新浪微博热门评论抽取规则

packageweiboextractor;importjava.util.HashSet;importjava.util.Set;importorg.apache.log4j.Logger;importorg.jsoup.Jsoup;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.selec 查看详情

jq微博发布评论案例

<style>*margin:0;padding:0;ullist-style:none;.boxwidth:600px;margin:100pxauto;border:1pxsolid#000;padding:20px;textareawidth:450px;height:160px;outline:none;resize:none;ulwidth:450px;pa 查看详情

清洗微博评论数据(代码片段)

0.问题描述抓取到的评论数据非常滴脏,其中有一些无用信息,所以目标就是只提取其中的中文文字内容评论中会存在很多表情,如下所示不是很快就撤了吗?<spanclass="url-icon"><imgalt="[吃瓜]"src="//h5.sinaimg.cn/m/emoticon/icon/defau... 查看详情

pc手机端微博评论代码

<!doctypehtml><html><head><metacharset="utf-8"><title>无标题文档</title></head> <body><divclass="text11_pinglun">  <!--多说评论框start--&g 查看详情

利用php从淘宝采集评论和成交数据

如果不想通过淘宝开放平台API获取数据,那么另外一个很好的办法就是采集了。一般来说,采集一个网页上的内容,只需要用CURL获取源代码,然后用正则表达式取出需要的内容就可以,不过如果这样载入一个淘宝的页面,会如... 查看详情

大数据分析案例-基于逻辑回归算法构建微博评论情感分类模型

查看详情

webscraper教程(五)爬虫进阶之微博评论的点击「查看更多」爬取

参考技术A任何事件在微博的发酵速度绝对是各大平台中最快的,如果把微博评论爬取下来,进行处理和分析,就能对某个事件的不同立场和风向有了全面的了解和掌握。当然,评论量大的微博在爬取时耗费时间较长,为了缩短... 查看详情

python爬虫:微博评论分析

...s://weibo.com/5977512966/L6w2sfDXb#comment爬取的下面的全部评论:微博的网页属于Ajax渲染,当我们向下滑动的时候会显示的评论,地址栏的URL不变,需要找到实际的请求URL。1、右击【检查】,找到【Network】2、确定每页的内容URL这里是... 查看详情