crawlspider和中间件(代码片段)

xujinjin18 xujinjin18     2023-01-05     590

关键词:

 

CrawlSpider

一.简介

  CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url列表中网页,而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

 

二.使用

  1.创建scrapy工程:scrapy startproject projectName

  2.创建爬虫文件:scrapy genspider -t crawl spiderName www.xxx.com

    --此指令对比以前的指令多了 "-t crawl",表示创建的爬虫文件是基于CrawlSpider这个类的,而不再是Spider这个基类。

 

技术分享图片
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class CrawldemoSpider(CrawlSpider):
    name = crawlDemo
    #allowed_domains = [‘www.qiushibaike.com‘]
    start_urls = [http://www.qiushibaike.com/]

    #连接提取器:会去起始url响应回来的页面中提取指定的url
    link = LinkExtractor(allow=r/8hr/page/d+)
    #rules元组中存放的是不同的规则解析器(封装好了某种解析规则)
    rules = (
        #规则解析器:可以将连接提取器提取到的所有连接表示的页面进行指定规则(回调函数)的解析
        Rule(link, callback=parse_item, follow=True),
    )

    def parse_item(self, response):
        #print(response.url)
        divs = response.xpath(//div[@id="content-left"]/div)
        for div in divs:
            author = div.xpath(./div[@class="author clearfix"]/a[2]/h2/text()).extract_first()
            print(author)
爬虫文件

 

Rule : 规则解析器。根据链接提取器中提取到的链接,根据指定规则提取解析器链接网页中的内容。

     Rule(LinkExtractor(allow=r‘Items/‘), callback=‘parse_item‘, follow=True)

    - 参数介绍:

      参数1:指定链接提取器

      参数2:指定规则解析器解析数据的规则(回调函数)

      参数3:是否将链接提取器继续作用到链接提取器提取出的链接网页中。callbackNone,参数3的默认值为true

LinkExtractor:顾名思义,链接提取器。

    LinkExtractor(

         allow=r‘Items/‘,# 满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。

         deny=xxx,  # 满足正则表达式的则不会被提取

rules=( ):指定不同规则解析器。一个Rule对象表示一种提取规则。

CrawlSpider整体爬取流程:

    a)爬虫文件首先根据起始url,获取该url的网页内容

    b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

    c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

    d)将解析数据封装到item中,然后提交给管道进行持久化存储

 

         restrict_xpaths=xxx, # 满足xpath表达式的值会被提取

         restrict_css=xxx, # 满足css表达式的值会被提取

         deny_domains=xxx, # 不会被提取的链接的domains。 

    )

    - 作用:提取response中符合规则的链接。

 

 

中间件

最主要是用来设置代理

middleware.py 文件中设置

settings.py 中开启中间件

技术分享图片
#设置代理ip 

class MyDaili(object):
    def process_request(self,request,spider):
        request.meta[proxy] = "http://120.76.231.27:3128"
middlewares.py
技术分享图片
#setttings中开启中间件

SPIDER_MIDDLEWARES = 
    firstBlood.middlewares.FirstbloodSpiderMiddleware: 543,
settings.py

 

5crawlspider操作(代码片段)

CrawlSpider提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。方法二:基于CrawlSpider的自动爬取进行实现... 查看详情

crawlspiders(代码片段)

CrawlSpiders是Spider的派?类,Spider类的设计原则是只爬取start_url列表中的?页,?CrawlSpider类定义了?些规则(rule)来提供跟进link的?便的机制(可以爬取下一页或跟进页面中其他的url),从爬取的??中获取link并继续爬取的?作更适合。CrawlSpide... 查看详情

scrapy框架之crawlspider(代码片段)

...进行实现(Request模块递归回调parse方法)。方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。一,介绍CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有 查看详情

scrapy框架之crawlspider(代码片段)

一、介绍CrawlSpider是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是"LinkExtractors"链接提取器。Spider是所有爬虫的基类,其设计原则只是为了爬取start_url... 查看详情

scrapy框架之(crawlspider)(代码片段)

一.CrawlSpider简介如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。方法二:基于CrawlSpider的自动爬取进... 查看详情

18python网路爬虫之scrapy框架中的crawlspider详解(代码片段)

CrawlSpider的引入:    提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?  方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。  方法二:基于Craw... 查看详情

爬虫scrapy框架-crawlspider链接提取器与规则解析器(代码片段)

一:Crawlspider简介    CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类,其设计... 查看详情

scrapy框架--crawlspider(代码片段)

CrawlSpider类,Spider的一个子类  -全站数据爬取的方式    -基于Spider:手动请求    -基于CrawlSpider  -CrawlSpider的使用:    -创建一个工程    -cdXXX  -创建爬虫文件(CrawlSpider):    -scrapygenspider-tcraw... 查看详情

scrapy框架中的crawlspider(代码片段)

...进行实现(Request模块递归回调parse方法)。方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 一.简介  CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能外,还派生除了其自己独有的更加强大... 查看详情

11.crawlspiders(代码片段)

CrawlSpiders通过下面的命令可以快速创建CrawlSpider模板的代码:1.scrapystartprojecttencentspider  2.scrapygenspider-tcrawltencenttencent.com 上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样... 查看详情

scrapy爬虫进阶crawlspider类的使用(代码片段)

Scrapy的crawlspider爬虫1.crawlspider是什么2.创建crawlspider爬虫并观察爬虫内的默认内容2.1创建crawlspider爬虫:2.2spider中默认生成的内容如下:2.3观察跟普通的scrapy.spider的区别3.crawlspider网易招聘爬虫4.crawlspider使用的注意点5.了解... 查看详情

scrapy框架-----crawlspiders(代码片段)

CrawlSpiders通过下面的命令可以快速创建CrawlSpider模板的代码:scrapygenspider-tcrawltencenttencent.com上一个案例中,我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以换个花样...classscrapy.spiders.CrawlSpider它是Spider的派... 查看详情

crawlspider爬取拉钩(代码片段)

CrawlSpider继承Spider,提供了强大的爬取规则(Rule)供使用填充custom_settings,浏览器中的请求头fromdatetimeimportdatetimeimportscrapyfromscrapy.linkextractorsimportLinkExtractorfromscrapy.spidersimportCrawlSpider,RulefromArticleSp 查看详情

小爬爬7:回顾&&crawlspider(代码片段)

1.回顾-全站数据爬取(分页)-手动请求的发送Request(url,callback)-post请求和cookie处理-start_requests(self)-FromRequest(url,callback,formdata)-cookie操作是自动处理-请求传参-使用场景:-实现:scrapy.Request(url,callback,meta=‘‘:‘‘)callback:respo 查看详情

scrapy框架-spider和crawlspider的区别(代码片段)

目录1.目标2.方法1:通过Spider爬取3.通过CrawlSpider爬取1.目标http://wz.sun0769.com/index.php/question/questionType?type=4&page=爬取每个页面链接的内部内容和投诉信息2.方法1:通过Spider爬取#-*-coding:utf-8-*-importscrapyfromdongguanSpider.itemsimportDongguan... 查看详情

scrapy——3crawlspider(代码片段)

scrapy——3 crawlSpider crawlSpider爬取一般网站常用的爬虫类。其定义了一些规则(rule)来提供跟进link的方便的机制。也许该spider并不是完全适合您的特定网站或项目,但其对很多情况都使用。因此您可以以其为起点,根据需求... 查看详情

scrapy:crawlspider的使用(代码片段)

Scrapy(五):CrawlSpider的使用说明:CrawlSpider,就是一个类,是Spider的一个子类,也是一个官方类,因为是子类,所以功能更加的强大,多了一项功能:去指定的页面中来抓取指定的url的功能比如:很多页码,都需要自己去查找... 查看详情

爬虫--scrapy-crawlspider&分布式爬虫(代码片段)

CrawlSpiderCrawlSpider:问题:如果我们想要对某一个网站的全站数据进行爬取?解决方案:1.手动请求的发送2.CrawlSpider(推荐)之前的事基于Spider类CrawlSpider概念:CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大(链接提... 查看详情