爬虫简介(代码片段)

whileTrue:justdoit whileTrue:justdoit     2022-11-11     796

关键词:

爬虫的定义

爬虫:按照一定的规则,自动抓取互联网信息的程序或者脚本,从而获取对于我们有价值的信息。

爬虫的两大特征

  1. 能够按照作者的要求下载数据或者内容
  2. 能自动在网络上流窜

爬虫的三大步骤

  1. 下载网页
  2. 提取正确的信息
  3. 根据一定的规则自动跳到另外的网页上执行上两步

爬虫的分类

  1. 通用爬虫
  2. 专用爬虫(聚焦爬虫)

爬虫的结构

Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。

  1. 调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。
  2. URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。
  3. 网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括需要登录、代理、和cookie,requests(第三方包)
  4. 网页解析器:将一个网页字符串进行解析,可以按照我们的要求来提取出我们有用的信息,也可以根据DOM树的解析方式来解析。网页解析器有正则表达式(直观,将网页转成字符串通过模糊匹配的方式来提取有价值的信息,当文档比较复杂的时候,该方法提取数据的时候就会非常的困难)、html.parser(Python自带的)、beautifulsoup(第三方插件,可以使用Python自带的html.parser进行解析,也可以使用lxml进行解析,相对于其他几种来说要强大一些)、lxml(第三方插件,可以解析xml和HTML),html.parser和beautifulsoup以及lxml都是以DOM树的方式进行解析的。
  5. 应用程序:就是从网页中提取的有用数据组成的一个应用。

爬虫的执行流程

 

 

爬虫常用模块

Py2.x:

  • Urllib
  • Urllin2

Py3.x:

  • Urllib

变化:

  • 在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import urllib.requesturllib.error
  • 在Pytho2.x中使用import urllib——-对应的,在Python3.x中会使用import urllib.requesturllib.errorurllib.parse
  • 在Pytho2.x中使用import urlparse——-对应的,在Python3.x中会使用import urllib.parse
  • 在Pytho2.x中使用import urlopen——-对应的,在Python3.x中会使用import urllib.request.urlopen
  • 在Pytho2.x中使用import urlencode——-对应的,在Python3.x中会使用import urllib.parse.urlencode
  • 在Pytho2.x中使用import urllib.quote——-对应的,在Python3.x中会使用import urllib.request.quote
  • 在Pytho2.x中使用cookielib.CookieJar——-对应的,在Python3.x中会使用http.CookieJar
  • 在Pytho2.x中使用urllib2.Request——-对应的,在Python3.x中会使用urllib.request.Request

爬虫与反爬虫技术简介(代码片段)

互联网的大数据时代的来临,网络爬虫也成了互联网中一个重要行业,它是一种自动获取网页数据信息的爬虫程序,是网站搜索引擎的重要组成部分。通过爬虫,可以获取自己想要的相关数据信息,让爬虫协... 查看详情

数据分析⚠️走进数据分析2⚠️爬虫简介(代码片段)

【数据分析】⚠️走进数据分析2⚠️爬虫简介概述爬虫爬取网页设置超时时间处理网络异常概述数据分析(DataAnalyze)可以在工作中的各个方面帮助我们.本专栏为量化交易专栏下的子专栏,主要讲解一些数据分析的基础知识.爬虫爬... 查看详情

爬虫-scrapy框架简介与入门(代码片段)

...量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy使用了Twisted[‘tw?st?d](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己... 查看详情

python--爬虫--selenium的简介和使用(代码片段)

...加载页面,获取需要的数据,甚至页面截屏。而爬虫中使用它主要是为了解决requests无法执行 查看详情

python爬虫|网络爬虫简介(代码片段)

文章目录Python爬虫|网络爬虫简介网络爬虫何时有用网络爬虫是否合法背景调研检查robots.txt检查网站地图估算网站大小识别网站所用技术寻找网站所有者编写第一个网络爬虫下载网页网站地图爬虫ID遍历爬虫链接爬虫Python爬虫|网... 查看详情

python爬虫|网络爬虫简介(代码片段)

文章目录Python爬虫|网络爬虫简介网络爬虫何时有用网络爬虫是否合法背景调研检查robots.txt检查网站地图估算网站大小识别网站所用技术寻找网站所有者编写第一个网络爬虫下载网页网站地图爬虫ID遍历爬虫链接爬虫Python爬虫|网... 查看详情

爬虫系列之第1章-简介&requests模块(代码片段)

...谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取数据的手段。网络爬虫,即Web Spider,是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘... 查看详情

python爬虫入门(代码片段)

python爬虫入门(8)​Xpath语法入门​Xpath用于在XML文档中搜索内容​html是xml中的一个子集文章目录python爬虫入门(8)一.Xpath简介1.何为Xpath2.Xpath解析原理3.Xpath语法二.示例1.XML2.HTML一.Xpath简介​准备工作:​pipinstalllxml​lxml是一种... 查看详情

一个简书的爬虫,可以设定页码,抓取文章标题简介以及链接(代码片段)

1#coding=utf-82importrequests3frombs4importBeautifulSoup45m=input("请输入想要抓取的页码数量:")6foriinrange(1,int(m)):7url="https://www.jianshu.com/?page="+str(i)8headers=9‘User-Agent‘:‘Mozilla/5.0(WindowsNT10.0; 查看详情

爬虫简介和requests模块(代码片段)

目录爬虫介绍requests模块requests模块1、requests模块的基本使用2、get请求携带参数,调用params参数,其本质上还是调用urlencode3、携带headers,请求头是将自身伪装成浏览器的关键4、带cookie5、发送post请求(注册,登陆),携带数据(bod... 查看详情

python爬虫之scrapy框架系列——xxtop250电影简介信息的获取及存储到本地(代码片段)

...息:First:包含电影简介信息url的获取Second:爬虫文件的更改Third:编写get_detail()函数注意ÿ 查看详情

第一章网络爬虫简介(代码片段)

本章将介绍如下主题:网络爬虫领域介绍爬虫的合法与非法性对目标网站进行背景调研逐步完善一个高级网络爬虫1.1网络爬虫的使用场景    网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的... 查看详情

爬虫大作业(代码片段)

1.爬取豆瓣电影top250。(所有同学不能雷同)2.用python编写爬虫程序,从网络上爬取相关主题的数据。importrequestsfrombs4importBeautifulSoupfromdatetimeimportdatetimeimportreimportpandas#电影简介保存到txt。defwriteNewsDetail(content):f=open(‘wzh.txt‘,‘a 查看详情

爬虫简介以及request模块(代码片段)

 一爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上... 查看详情

爬虫简介与request模块(代码片段)

一爬虫简介概述近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网上爬取... 查看详情

小爬虫学习——scrapy框架(代码片段)

...#xff1a;爬取豆瓣电影4.1、目标数据要求4.2、项目文件4.2.1、爬虫文件4.2.2、items文件4.2.3、piplines文件4.2.4、settings文件一、简介Scrapy是纯Python 查看详情

爬虫大作业(代码片段)

对豆瓣读书网进行书评书单推荐简介和推荐链接数据爬取:  frombs4importBeautifulSoupimportrequestsimportjiebaimporttimeimportdatetimer=requests.get(‘https://book.douban.com‘)lyrics=‘‘html=r.textsoup=BeautifulSoup(html,‘html.parser 查看详情

爬虫学习笔记(二十四)——pyspider框架(代码片段)

...果一、框架介绍1.1、简介pyspider是个强大的由python实现的爬虫系 查看详情