爬虫基本原理

wisir wisir     2023-01-17     259

关键词:

什么是爬虫?即“请求”网站并“提取”数据的“自动化”程序。

爬虫基本流程:

发起请求:通过HTTP库向目标站点发起请求,即发送一个Reques,请求可以包含额外的headers等信息,等待服务器相应。

获取相应内容:如果服务器能正常相应,会得到一个Response,Response的内容便是要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频)等类型。

解析内容:得到的内容可能是HTML,可以用正则表达式,网页解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理。

保存数据:保存形式多样,可以存为文本,也可以保存至数据库,或者保存特定格式的文件。

技术分享图片

 

Request中包含什么呢?

GET请求:请求数据暴露在URL里边;POST请求:表单提交的数据在Form Data里边。

技术分享图片

 

Response中包含什么呢?

技术分享图片

 

能抓取什么样的数据?

技术分享图片

 

解析方式有哪些?

直接处理:如得到网页源码,得到图片的二进制数据存储到本地。

json解析:得到json键值对数据,在Network下面的XHR筛选出的内容中有得到的json数据。

正则表达式

beautifulsoup库解析

pyquery库解析

xpath库解析

 

往往自己爬到的数据和网页上显示的不一样,是因为网页除了一些request请求得到的数据,还有一些js渲染的数据,这些js的数据没有爬到,所以不一样。

怎么解决JavaScript渲染的问题?

分析ajax请求

selenium/webdriver来操作浏览器式的获取pagesource的内容

splash库

pyv8、ghost.py

 

怎样保存数据?

文本:纯文本、json、xml等

关系型数据库:如mysql、Oracle、sqlserver等具有结构化表结构形式存储

非关系型数据库:如MongoDB、Redis等key-value形式存储

二进制文件:如图片、视频、音频等直接保存成特定格式即可

 

python爬虫4爬虫基本原理

爬虫基本原理爬虫的基本流程1、获取网页源代码:通过请求库实现,urllib,requests等实现HTTP请求;2、提取信息:分析网页源代码,提取数据,如正则表达式,beautifulsoup,pyquery,Ixml等;... 查看详情

爬虫基本原理

 执行时找不到浏览器的驱动解决解决方法:https://blog.csdn.net/qq_26200629/article/details/86141131 google对应版本驱动的下载:http://npm.taobao.org/mirrors/chromedriver/下载得到驱动之后:  查看详情

爬虫基本原理

什么是爬虫?  请求网站并提取数据的自动化程序。  请求:用程序实现  提取:要从文本提取有用的信息  自动化:程序可以一直运行,不断向服务器发起请求爬虫基本流程发起请求:通过HTTP库向目标站点发起请求... 查看详情

爬虫基本原理

什么是爬虫?即“请求”网站并“提取”数据的“自动化”程序。爬虫基本流程:发起请求:通过HTTP库向目标站点发起请求,即发送一个Reques,请求可以包含额外的headers等信息,等待服务器相应。获取相应内容:如果服务器能正... 查看详情

爬虫从入门到放弃——爬虫的基本原理(代码片段)

 爬虫的基本原理:https://www.cnblogs.com/zhaof/p/6898138.html这个文章写的非常好,把爬虫的基本思路解释的很清楚的。 一、介绍工具(用什么爬)1、PythonIDLE就是用了创建、运行、测试和调试python的工具。集成开发环境:用于... 查看详情

爬虫基本原理(代码片段)

目录一、爬虫的定义   一、爬虫的定义基本上网:    浏览器提交请求->下载网页代码->解析/渲染成页面。 爬   虫:   模拟浏览器发送请求->下载网页代码->只提取有用的数据->... 查看详情

爬虫:基本原理

一:什么是爬虫请求网站并提取数据的自动化程序。二:爬虫基本流程a.发起请求  通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等服务器响应。b.获取响应内容  如果服务器能正常... 查看详情

爬虫基本原理

一.爬虫是什么?二.爬虫的基本流程三.请求与响应四.Request五.Response六.总结一爬虫是什么?1、什么是互联网?互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。2、互联网建立的目... 查看详情

爬虫-基本原理

阅读目录一爬虫是什么二爬虫的基本流程三请求与响应四Request五Response六总结一爬虫是什么#1、什么是互联网?互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。#2、互联网... 查看详情

爬虫基本原理

阅读目录一爬虫是什么二爬虫的基本流程三请求与响应四Request五Response六总结一爬虫是什么#1、什么是互联网?互联网是由网络设备(网线,路由器,交换机,防火墙等等)和一台台计算机连接而成,像一张网一样。#2、互联网... 查看详情

网络爬虫的基本原理

1、网络爬虫原理网络爬虫指按照一定的规则(模拟人工登录网页的方式),自动抓取网络上的程序。简单的说,就是讲你上网所看到页面上的内容获取下来,并进行存储。网络爬虫的爬行策略分为深度优先和广度优先。如下图... 查看详情

爬虫的基本原理?爬虫需要掌握哪些东西?

什么是网络爬虫?相信刚接触爬虫这个词的人都有这样的疑问,网络爬虫可以做什么?它是基于什么样的原理,如果想要学习爬虫,需要掌握什么知识。本文将会对这些问题做一个解释和说明,希望可以帮... 查看详情

python爬虫编程思想:网络爬虫的基本原理

      目录1.爬虫的分类2.爬虫抓取数据的方式和手段Python爬虫编程思想(5):Session与Cookie        我们为什么将从互联网上下载资源的程序称为爬虫呢?其实这是一个很形象的比... 查看详情

爬虫基本原理2

什么是爬?请求?网站并提取数据的?自动化程序爬虫的基本流程发起请求通过HTTP库向?目标站点发起请求,即发送?个Request,请求可以包含额外的headers等信息,等待服务器响应。获取相应内容如果服务器?能正常响应,会得到?一个Re... 查看详情

爬虫基础——http基本原理

##学习爬虫务必从了解请求网页的工作流程和网页的组成原理开始,不然直接去学爬虫操作像是请求库等等,大概率会知其然而不知其所以然(个人体会)URL和HTTP简介URL(UniformResourceLocator):统一资源定位符下面通过百度贴吧的网址来... 查看详情

爬虫基本原理代理

互联网是一张大网,爬虫就是在网上爬行的蜘蛛,爬行到的网页就相当于访问了该页面爬虫就是获取网页并提取和保存信息的自动化程序 1、获取网页获取网页,就是获取网页的源代码,从中提取有用的信息关键就是构造请... 查看详情

芝麻http:爬虫的基本原理

我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛。把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛... 查看详情

爬虫基本原理

一爬虫是什么爬虫:就像蜘蛛为了捕捉猎物,做了一张大网,当有小动物被黏在网上,蜘蛛就会顺着网线去找猎物位置,并吃掉猎物;互联网就像蜘蛛的一张大网,网络中的各个设备就相当于网中的猎物,爬虫就像蜘蛛,顺着网... 查看详情