正文

初识爬虫

wusir66  wusir66  2023-01-29  193

关键词：

何为爬虫

　　网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

技术分享图片

　　我们平时的上网就是浏览器提交请求->下载网页代码->解析/渲染成页面。而我们的爬虫就是模拟浏览器发送请求->下载网页代码->只提取有用的数据->存放于数据库或文件中。所以，我们的爬虫程序只提取网页代码中对我们有用的数据。

爬虫的基本流程

技术分享图片

请求与响应

技术分享图片

http协议：https://home.cnblogs.com/u/wusir66/

Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等）

ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

总结

1、总结爬虫流程：
爬取--->解析--->存储

2、爬虫所需工具：
请求库：urllib.request,urllib.parse,requests,selenium
解析库：正则，beautifulsoup，lxml
存储库：文件，MySQL，Mongodb，Redis

3、爬虫常用框架：
scrapy

python小课堂专栏python小课堂33-初识原生爬虫优化

python小课堂33-初识原生爬虫优化前言上周写的爬虫代码分析思路，没多少人看丫…果然还是代码的讲解比较枯燥无聊吧…没看的可以回顾一下啦：python小课堂32-初识原生爬虫（二）本篇文章写完会将代码放在github上，想... 查看详情

初识爬虫

什么是爬虫？网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程... 查看详情

初识爬虫

昨晚，有了试试爬虫项目的想法。总感觉光学基础语法知识不实战，有点纸上谈兵。既然想到了，那么就说干就干，在网上找了一些爬虫的资料，仔细阅读一番，算是做了初步了解。现在及时把这些想法记录下来，以备日后完善... 查看详情

(py爬虫03)爬虫初识(代码片段)

原本的想法是这样的:博客整理知识学习的同时,也记录点心情...集中式学习就没这么多好记录的了!要学习一门技术,首先要简单认识一下爬虫!其实可以参考爬虫第一章!整体上介绍该技术包含技能,具体能做什么.这里就更详细了重... 查看详情

python小课堂专栏python小课堂31-初识原生爬虫

python小课堂31-初识原生爬虫前言在上一期介绍了爬虫之前必会浏览器的开发者工具，忘记的童鞋可以在回顾一下：python小课堂30-爬虫之前必会的浏览器开发者工具.本篇文章将以实战来介绍一期“原生”爬虫，这里的原... 查看详情

com.panie项目开发随笔_爬虫初识（2017.2.7）

（一）本章打算研究一下爬虫。我想用爬虫简单的爬取几篇文章，以及收集一下常用网站的信息。（二）　　以开源项目JAVA爬虫WebCollector为源码研究。在此基础上改为适合自己项目的代码。（三）WebCollector致... 查看详情

初识spider_man(爬爬虫)

一：引子?????? 　　网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引... 查看详情

爬虫初识(爬取dytt电影列表及下载地址)(代码片段)

importrefromurllib.requestimporturlopendefgetPage(url):response=urlopen(url)returnresponse.read().decode(‘gbk‘,errors=‘ignore‘)defparsePage(s):com=re.compile(r‘<tdheight="26">.*?<b>.*?< 查看详情

爬虫初识(代码片段)

爬虫什么是爬虫?通过编写代码，模拟浏览器发送请求，让其去网络上抓去数据的过程。爬虫分类？通用爬虫抓取整张网页的全部内容聚焦爬虫抓去一张页面的部分内容通用爬虫和聚焦爬虫的关联：聚焦是建立在通用爬虫的基础... 查看详情

爬虫之初识爬虫

1,爬虫的介绍:引入我们都知道,我们当前所处的环境是一个大数据的时代,油漆是互联网,数掌握了数据,谁就掌握了市场的先机,要想掌控数据,就得先获取数据,而爬虫就可以让我们获取到数据源,并且这些数据源考科一根据我们的目... 查看详情

爬虫(十四)：scrapy框架初识scrapy第一个案例(代码片段)

1. Scrapy框架Scrapy功能非常强大，爬取效率高，相关扩展组件多，可配置和可扩展程度非常高，它几乎可以应对所有反爬网站，是目前Python中使用最广泛的爬虫框架。1.1Scrapy介绍1.1.1架构介绍Scrapy是一个基于Twisted的异步处理框... 查看详情

scrapy抓取拉勾网职位信息——scrapy初识及lagou爬虫项目建立

本次以scrapy抓取拉勾网职位信息作为scrapy学习的一个实战演练python版本：3.7.1框架：scrapy（pip直接安装可能会报错，如果是vc++环境不满足，建议直接安装一个visualstudio一劳永逸，如果报错缺少前置依赖，就先安装依赖） ... 查看详情

爬虫初识(代码片段)

两个常用库确定自己要访问的页面和构建请求头：url="http://www.xxx.com"headers="User-Agent":"Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/79.0.3945.88Safari/537.36"query_string=form_data=两者都是字典类型（json... 查看详情

走进爬虫的世界(代码片段)

初识爬虫一、了解爬虫和浏览器的原理1.浏览器的工作原理2.爬虫的工作原理2.1初识爬虫编写二、简要学习HTML1.什么是HTML2.HTML的标签和元素3.<head>和<body>3.1<head>3.2<body>4.设置标签的属性5.两个常用属性：class&am... 查看详情

30个小时搞定python网络爬虫

...bsp; 1、课程介绍│ 2、Python初识│ 3、Python基础语法│ 4、Python控制流与小实例实战│ 5、Python函数详解│ 6、Python模块实战│ ... 查看详情

requests-html库初识+无资料解bug之i/oerror:encodererror，python爬虫第30例(代码片段)

本篇博客是《爬虫120例》的第30例，新学习一个爬虫框架requests-html，该框架作者就是requests的作者，所以盲猜就很好用啦。知识铺垫工作requests-html模块安装使用pipinstallrequests-html即可，官方手册查询地址：https:... 查看详情

requests-html库初识+无资料解bug之i/oerror:encodererror，python爬虫第30例(代码片段)

python3网络爬虫：初识网络爬虫之夜探老王家（2020年最新版）(代码片段)

一、前言3年前，我在csdn写过Python3网络爬虫系列教程，经过三年的积累，累计阅读量近90W。同时，我也在Github开源了所有Python3网络爬虫代码，累积获得10.3k+的star，4.1k+的fork。可以说，这个系列教... 查看详情