scrapy爬取新浪微博

chengchengaqin chengchengaqin     2023-01-09     343

关键词:

1 本节目标

本次爬取的日标是新浪微博用户的公开基本信息,如用户昵称、头像、用户的关注、粉丝列表以

及发布的微博等,这些信息抓取之后保存至 MongoDB。

2.如何实现:

以微博的几个大 V为起始点,爬取 他们各内的粉丝和关注列表,然后获取粉丝和关注列表的粉丝和关注列表,以 此类推,这样下去就可 以实现递归爬取。 如果一个用户与其他用户有社交网络上的关联,那他们的信息就会被爬虫抓取到,这样我们就可以做到对所有用户的爬取 。 通过这种方式,我们可以得到用户的唯一 ID, 再根据 ID获 取每个用户发布的微博即可 。

3. 分析

爬取站点是: https://m.weibo.cn,此站点是微博移动端的站点 。 打开该站点会跳转到登录页面,这是因为主页做了登录限制 。 不过我们可以直接打开某个用户详情页面

新浪微博的反爬能力非常强,如果没有登录而直接请求微博的 API接口,这非常容易导致 403状态码。所以在这里我们实现一个 Middleware,为每个 Request添加随机的 Cookies。

微博还有一个反爬措施就是,检测到同一 IP请求量过大时就会出现 414 状态码 。 如果遇到这样的情况可以切换代理。

scrapy入门爬取新闻

为文本分类实验爬取数据集,要求一百万,分类>10类。参考链接:http://litianyi.cc/technology/2015/12/01/text-classification-1/文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html最基础的爬取,实验新浪科技大概3k+,腾讯科技5k+,一财... 查看详情

如何通过python调用新浪微博的api来爬取数据

1:安装python(这个不多说啦)2:下载新浪微博SDK的python包,解压为weibopy目录3:申请AppKey,流程:1:通过oAuth认证按我的理解简化如下:用户在新浪微博给的页面输入账号密码,然后微博给应用一个PIN码,这样应用通过PIN码才有权... 查看详情

scrapy爬虫demo爬取资讯分类(代码片段)

爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。效果演示图: items.pyimportscrapyimportsysreload(sys)sys.setdefaultencoding("utf-8")classSinaItem(scrapy.Item):#大类的标题和urlparentTitle=scrapy.Field()parentUrls... 查看详情

怎样用python爬新浪微博大v所有数据

...条路,改为『生爬』,因为PC端的微博是Ajax的动态加载,爬取起来有些困难,我果断知难而退,改为对移动端的微博进行爬取,因为移动端的微博可以通过分页爬取的方式来一次性爬取所有微博内容,这样工作就简化了不少。最... 查看详情

分类资讯网站爬虫之新浪

爬取新浪网导航页所有下所有大类、小类、小类里的子链接,以及子链接页面的新闻内容。效果演示图:废话不说,直接上代码:items.pyimportscrapyimportsysreload(sys)sys.setdefaultencoding("utf-8")classSinaItem(scrapy.Item):#大类的标题和urlparentTit... 查看详情

爬虫:新浪微博爬虫的最简单办法(代码片段)

...微博以及微博收到的回复等内容,可以通过配置项来调整爬取的微博用户列表以及其他属性。既然说是最简单的办法,那么我们就得先分析微博爬虫可能选择的几个目标网址,首先肯定是最常见的web网站了还有就是m站,也就是... 查看详情

第八天,scrapy的几个小技巧(代码片段)

 一.微博模拟登陆1.百度搜微博开放平台可满足爬取量不大的情况2.微博模拟登陆和下拉鼠标应对ajax加载fromseleniumimportwebdriverimporttimebrowser=webdriver.Chrome()browser.get(‘https://www.weibo.com‘)time.sleep(10)browser.find_element_by_css_se 查看详情

scrapy爬取简单百度页面(代码片段)

Scrapy爬取百度页面------------------------------------------spiders-baiduspider.py 1‘‘‘2要求导入scrapy3所有类一般是XXXSpider命名4所有爬虫类是scrapy.Spider的子类5scrapy爬取百度6关闭配置的机器人协议7‘‘‘89importscrapy1011classBaiduSpider(s 查看详情

scrapy全站数据爬取(代码片段)

大部分的网站展示的数据都进行了分页操作,那么将所有页码对应的页面数据进行爬取就是爬虫中的全站数据爬取。基于scrapy如何进行全站数据的爬取?使用request方法,给callback传参(函数),函数解析请求回来的数据,实现全站数... 查看详情

scrapy爬取booking酒店评论数据

#scrapy爬取酒店评论数据-- 代码here:github地址:https://github.com/760730895/scrapy_Booking-- 采用scrapy爬取酒店评论数据。总共有28W条记录。做某NLP任务,需要一些hotelreviews,选择从`www.booking.com`搞一点数据来。根据主页显示总共有20... 查看详情

登陆新浪微博

登录新浪微薄时我忘了密码怎么办啊?请问我在登录新浪微薄时忘了用户名和密码怎么办呢?我在重复一篇:我在登录新浪微薄时不知道如何找回用户名和密码了。我有几个新浪邮箱,在登陆新浪微博时,还是提供不正确。请问... 查看详情

用scrapy爬取京东的数据(代码片段)

本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中。 一、项目介绍 主要目标1、使用scrapy爬取京东上所有的手机数据2、将爬取的数据存储到MongoDB 环境win7、python2、pycharm 技术1、数据采集:scr... 查看详情

scrapy爬取前端渲染页面

参考技术Aok,现在我们就可以愉快的抓取动态渲染的页面了,溜了。 查看详情

scrapy爬虫框架-爬取多个网页(代码片段)

scrapy爬虫框架(四)爬取多个网页思路:通过判断句子控网站中,下一页是否还有a标签来获取网址,拼接后继续爬取,最终写入json文件中。juziSpider.py#-*-coding:utf-8-*-importscrapyfromjuzi.itemsimportJuziItemclassJuzispiderSpider(scrapy.Spider):name='... 查看详情

scrapy初探之实现爬取小说(代码片段)

一、前言上文说明了scrapy框架的基础知识,本篇实现了爬取第九中文网的免费小说。二、scrapy实例创建1、创建项目C:\Users\LENOVO\PycharmProjects\fullstack\book9>scrapystartprojectbook92、定义要爬取的字段(item.py)importscrapyclassBook9Item(scrapy.... 查看详情

scrapy+selenium爬取简书全站(代码片段)

Scrapy+selenium爬取简书全站环境Ubuntu18.04Python3.8Scrapy2.1爬取内容文字标题作者作者头像发布日期内容文章连接文章ID思路分析简书文章的url规则使用selenium请求页面使用xpath获取需要的数据异步存储数据到MySQL(提高存储效率)实现... 查看详情

scrapy爬取拉勾网(代码片段)

一、模板使用scrapy在建立爬虫的时候,还可以指定使用的模板进行建立默认建立爬虫文件的命令:scrapygenspider爬虫名称爬虫地址可以用 scrapygenspider--list命令查看scrapy的模板$scrapygenspider--listAvailabletemplates:basiccrawlcsvfeedxmlfeed通... 查看详情

提高scrapy的爬取效率

增加并发:默认scrapy开启的线程数为32个,可以适当进行增加,在seeting配置文件中修改councurrent_requests设置为100降低日志等级:在运行scrapy运行时,会有大量日志输出,为了减少cpu的使用率,可将日志等级设置为log输出设置为erro... 查看详情