爬虫从入门到放弃-纯新手学习-爬虫基本原理(代码片段)

roc-atlantis roc-atlantis     2022-12-16     800

关键词:

1.什么是爬虫?

请求网站并提取数据的自动化程序

请求:客户端向服务端发送请求获得网页资源,是一段html代码,包含html标签和一段信息。

提取:提取出想要的信息,然后将结构化的数据存储到文本

自动化:写完程序一直运行着,代替客户端向服务端发送请求,可以大量的获得数据

 

爬虫四部

1.发起请求:通过http库向发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。

2 .获取响应内容:如果服务器能正常响应,会获得一个Response,Response内容便是所要获取的页面内容。类型可能有htmlmjson字符串,

二进制数据,如图片、视频等类型。

3.解析内容:得到的内容可能是html,可以用正则表达式,网页解析库进行解析,可能是json,可以直接转换为json对象解析,可能是二进制数据,

可以作保存或者进一步的处理。

4.保存数据:保存形式多样,可以保存文本,也可以保存数据库,也可以保存特定格式的文件。

 

请求的参数包含在哪一个方面。

get请求直接输入url回车

post请求需要构建表单,点击表单提交,登陆账户点击提交就是发送post请求,因为登陆账户会有隐私,不能直接放在url里,需要做成表单提交。

 

1. Request主要构成

请求方式:主要有get,post两种方式,其他的方式还有head,put,delete,options。

request method

请求URL:url全称资源统一定位符。任何一个软件,文档,资源都可以用url来唯一确定。

requeset url

请求头:包含请求时的头部信息。如user_Agent,cookies,Host

request headers

请求体:请求时额外携带的数据。如表单提交时的表单数据。

提交表单时候的表单数据 format

 

2.Response 主要构成

1.响应状态:200代表成功,301代表跳转,404找不到页面,502服务器错误。状态码

status code 200 ok 表示请求正常发送,服务器正常响应,网页的响应状态

2.响应头:如内容类型,内容长度,服务器信息,设置cookie等等。

reponse headers

3.响应体:最主要的部分,包含了请求资源的内容,如网页HTML,图片二进制数据等。

 

具体实例:

>>> import requests
>>> response = requests.get(‘http://www.baidu.com‘)
>>> response.text  # 可以拿到网页源码(响应体)

开始对网页进行解析

response.headers 查看响应头

response status_code  拿到响应状态

response.content 获得响应体的二进制

 

第一次爬虫,兴奋,虽然是最简单的一个图片

技术分享图片
import requests

response = requests.get( https://img4.duitang.com/uploads/item/201603/01/20160301162401_fc4Rv.jpeg)

>>> with open(rD:\sylm,wb) as f:
...     f.write(response.content)
...     f.close()
第一次爬小姐姐图片

 



爬虫从入门到放弃——爬虫的基本原理(代码片段)

 爬虫的基本原理:https://www.cnblogs.com/zhaof/p/6898138.html这个文章写的非常好,把爬虫的基本思路解释的很清楚的。 一、介绍工具(用什么爬)1、PythonIDLE就是用了创建、运行、测试和调试python的工具。集成开发环境:用于... 查看详情

python爬虫从入门到放弃,网络爬虫应用实战(代码片段)

python爬虫应用Request库get方法Request对象Response对象session会话对象正则匹配re.match()方法例题:bugku-web基础$_POST例题:bugku-速度要快例题:bugku-秋名山老司机例题:bugku-cookies欺骗Request库get方法Pythonrequests库的get()方法... 查看详情

python爬虫从入门到放弃,网络爬虫应用实战(代码片段)

python爬虫应用Request库get方法Request对象Response对象session会话对象正则匹配re.match()方法例题:bugku-web基础$_POST例题:bugku-速度要快例题:bugku-秋名山老司机例题:bugku-cookies欺骗Request库get方法Pythonrequests库的get()方法... 查看详情

爬虫python入门难学吗

爬虫是大家公认的入门Python最好方式,没有之一。虽然Python有很多应用的方向,但爬虫对于新手小白而言更友好,原理也更简单,几行代码就能实现基本的爬虫,零基础也能快速入门,让新手小白体会更大的成就感。因此小编整... 查看详情

python爬虫从入门到放弃,含案例分析,超详细讲解(代码片段)

Python爬虫1、认识爬虫1.1、概述网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者)按照一定规律,自动地抓取万维网信息的程序或者脚本。1.2、应用场景爬取网页优秀的... 查看详情

爬虫入门的基本原理,如果你连这些都不知道那你可以放弃爬虫了

我们天天到处看到爬虫爬虫的,你了解爬虫是什么吗?你知道爬虫的爬取流程吗?你知道怎么处理爬取中出现的问题吗?如果你回答不出来,或许你真的要好好看看这篇文章了!爬虫简介网络爬虫(Webc... 查看详情

scrapy框架爬虫爬取糗事百科之python爬虫从入门到放弃第不知道多少天

Scrapy框架安装1.windows10下安装Scrapy框架:  前提:安装了python-pip   1.windows下按住win+R输入cmd  2.在cmd下输入      pipinstallscrapy      pipinstall pypiwin32 这个必须安装,是win下运行scrapy的依赖    ... 查看详情

python爬虫从入门到放弃,网络爬虫应用实战(代码片段)

python爬虫应用Request库get方法Request对象Response对象session会话对象正则匹配re.match()方法例题:bugku-web基础$_POST例题:bugku-速度要快例题:bugku-秋名山老司机例题:bugku-cookies欺骗Request库get方法Pythonrequests库的get()方法... 查看详情

python爬虫从入门到放弃(十三)之scrapy框架的命令行详解(代码片段)

...0.html这篇文章主要是对的scrapy命令行使用的一个介绍创建爬虫项目scrapystartproject项目名例子如下:localhost:spiderzhaofan$scrapystartprojecttest1NewScrapyproject‘test1‘,usingtemplatedirectory‘/Library/Frameworks/Python.framework/Versions/3.5/lib/python3.5/site-pa... 查看详情

《java从入门到放弃》文章目录

...,等相关内容都写完后,再按学习顺序来整理。《Java从入门到放弃》入门篇:XMLHttpRequest的基本用法《Java从入门到放弃》入门篇:Struts2的基本访问方《Java从入门到放弃》入门篇:Struts2的基本访 查看详情

如何入门python爬虫

现在之所以有这么多的小伙伴热衷于爬虫技术,无外乎是因为爬虫可以帮我们做很多事情,比如搜索引擎、采集数据、广告过滤等,以Python为例,Python爬虫可以用于数据分析,在数据抓取方面发挥巨大的作用。但是这并不意味着... 查看详情

如何入门python爬虫

参考技术A现在之所以有这么多的小伙伴热衷于爬虫技术,无外乎是因为爬虫可以帮我们做很多事情,比如搜索引擎、采集数据、广告过滤等,以Python为例,Python爬虫可以用于数据分析,在数据抓取方面发挥巨大的作用。但是这... 查看详情

python爬虫从入门到放弃,含案例分析,超详细讲解(代码片段)

Python爬虫1、认识爬虫1.1、概述网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者)按照一定规律,自动地抓取万维网信息的程序或者脚本。1.2、应用场景爬取网页优秀的... 查看详情

爬虫的基本原理?爬虫需要掌握哪些东西?

什么是网络爬虫?相信刚接触爬虫这个词的人都有这样的疑问,网络爬虫可以做什么?它是基于什么样的原理,如果想要学习爬虫,需要掌握什么知识。本文将会对这些问题做一个解释和说明,希望可以帮... 查看详情

python零基础入门爬虫原理与数据抓取-通用爬虫和聚焦爬虫(代码片段)

​根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的... 查看详情

python零基础入门爬虫原理与数据抓取-通用爬虫和聚焦爬虫(代码片段)

​根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的... 查看详情

三个python爬虫版本,带你轻松入门爬虫!

爬虫是什么?如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;从技... 查看详情

如何入门python爬虫?爬虫原理及过程详解

“入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块一样慢慢学习。另外如果说知识体系里的每一个知识点是图里的点,依赖关系是边的话,... 查看详情