正文

python爬虫入门一之综述

author  author  2022-11-29  740

关键词：

大家好哈，最近博主在学习Python，学习期间也遇到一些问题，获得了一些经验，在此将自己的学习系统地整理下来，如果大家有兴趣学习爬虫的话，可以将这些文章作为参考，也欢迎大家一共分享学习经验。

Python版本:2.7，Python 3请另寻其他博文。

首先爬虫是什么？

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

根据我的经验，要学习Python爬虫，我们要学习的共有以下几点：

Python基础知识
Python中urllib和urllib2库的用法
Python正则表达式
Python爬虫框架Scrapy
Python爬虫更高级的功能

1.Python基础学习

首先，我们要用Python写爬虫，肯定要了解Python的基础吧，万丈高楼平地起，不能忘啦那地基，哈哈，那么我就分享一下自己曾经看过的一些Python教程，小伙伴们可以作为参考。

1) 慕课网Python教程

曾经有一些基础的语法是在慕课网上看的，上面附有一些练习，学习完之后可以作为练习，感觉效果还是蛮不错的，不过稍微遗憾的是内容基本上都是最基础的，入门开始的话，就这个吧

学习网址：慕课网Python教程

2) 廖雪峰Python教程

后来，我发现了廖老师的Python教程，讲的那是非常通俗易懂哪，感觉也是非常不错，大家如果想进一步了解Python就看一下这个吧。

学习网址：廖雪峰Python教程

3) 简明Python教程

还有一个我看过的，简明Python教程，感觉讲的也不错

学习网址：简明Python教程

2.Python urllib和urllib2 库的用法

urllib和urllib2库是学习Python爬虫最基本的库，利用这个库我们可以得到网页的内容，并对内容用正则表达式提取分析，得到我们想要的结果。这个在学习过程中我会和大家分享的。

3.Python 正则表达式

Python正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。这个在后面的博文会分享的。

4.爬虫框架Scrapy

如果你是一个Python高手，基本的爬虫知识都已经掌握了，那么就寻觅一下Python框架吧，我选择的框架是Scrapy框架。这个框架有什么强大的功能呢？下面是它的官方介绍：

HTML, XML源数据选择及提取的内置支持
提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。
通过 feed导出提供了多格式(JSON、CSV、XML)，多存储后端(FTP、S3、本地文件系统)的内置支持
提供了media pipeline，可以自动下载爬取到的数据中的图片(或者其他资源)。
高扩展性。您可以通过使用 signals ，设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
内置的中间件及扩展为下列功能提供了支持:
cookies and session 处理
HTTP 压缩
HTTP 认证
HTTP 缓存
user-agent模拟
robots.txt
爬取深度限制
针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
支持根据模板生成爬虫。在加速爬虫创建的同时，保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
针对多爬虫下性能评估、失败检测，提供了可扩展的状态收集工具。
提供交互式shell终端 , 为您测试XPath表达式，编写和调试爬虫提供了极大的方便
提供 System service, 简化在生产环境的部署及运行
内置 Web service, 使您可以监视及控制您的机器
内置 Telnet终端，通过在Scrapy进程中钩入Python终端，使您可以查看并且调试爬虫
Logging 为您在爬取过程中捕捉错误提供了方便
支持 Sitemaps 爬取
具有缓存的DNS解析器

官方文档：http://doc.scrapy.org/en/latest/

等我们掌握了基础的知识，再用这个 Scrapy 框架吧！

扯了这么多，好像没多少有用的东西额，那就不扯啦！

下面开始我们正式进入爬虫之旅吧！

转载请注明：静觅 » Python爬虫入门一之综述

如何入门爬虫（基础篇）

一、爬虫入门Python爬虫入门一之综述Python爬虫入门二之爬虫基础了解Python爬虫入门三之Urllib库的基本使用Python爬虫入门四之Urllib库的高级用法Python爬虫入门五之URLError异常处理Python爬虫入门六之Cookie的使用Python爬虫入门七之正则... 查看详情

python爬虫的教程

...源：http://cuiqingcai.com/1052.html大家好哈，我呢最近在学习Python爬虫，感觉非常有意思，真的让生活可以方便很多。学习过程中我把一些学习的笔记总结下来，还记录了一些自己实际写的一些小爬虫，在这里跟大家一同分享，希望... 查看详情

python爬虫与一汽项目综述

...虫代码。爬虫编写说明需要的安装的东西不多，语言就用python3数据库：mysql 可以安装正常的mysql，也可以安装wamps 查看详情

python之爬虫框架概述

...个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为参考技术A丨综述爬虫入门之后，我们有两条路可以走。一个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识... 查看详情

爬虫框架概述

...个是继续深入学习，以及关于设计模式的一些知识，强化Python相关知识，自己动手造轮子，继续为自己的爬虫增加分布式，多线程等功能扩展。另一条路便是学习一些优秀的框架，先把这些框架用熟，可以确保能够应付一些基本... 查看详情

python爬虫的入门教程都有哪些值得推荐的？

Python爬虫的入门教程有很多，以下是我推荐的几本：1.《Python网络爬虫开发实战》：这本书介绍了Python爬虫的基本原理，以及如何使用Python编写爬虫程序，实现网络爬虫的功能。2.《Python爬虫技术实战》：这本书介绍了Python爬虫... 查看详情

python爬虫入门(代码片段)

python爬虫入门(3)BeautifulSoup库入门文章目录python爬虫入门(3)1.安装及测试安装测验2.BeautifulSoup库基本元素①html标签②库的引用③BeautifulSoup类BeautifulSoup库解析器BeautifulSoup类的基本元素获取Tag获取Name获取Attributes获取NavigableString获... 查看详情

python爬虫入门到实战-史上最详细的爬虫教程

马哥高薪实战学员【Python爬虫入门到实战-史上最详细的爬虫教程，限时免费领取】爬虫分类和ROBOTS协议爬虫URLLIB使用和进阶爬虫URL编码和GETPOST请求查看详情

python爬虫入门到实战-史上最详细的爬虫教程

python教程入门学习python爬虫入门学习：网络爬虫是什么(代码片段)

网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的... 查看详情

python爬虫入门(代码片段)

python爬虫入门(8)Xpath语法入门Xpath用于在XML文档中搜索内容html是xml中的一个子集文章目录python爬虫入门(8)一.Xpath简介1.何为Xpath2.Xpath解析原理3.Xpath语法二.示例1.XML2.HTML一.Xpath简介准备工作：pipinstalllxmllxml是一种... 查看详情

python爬虫入门(代码片段)

python爬虫入门(2)Requests库实操文章目录python爬虫入门(2)一.实例1.爬取京东热带风味冰红茶2.百度搜索关键词提交其它搜索引擎`必应搜索是咋样的呢？``google`呢？可参考学习3.爬取泸溪河图片并保存4.IP地址自... 查看详情

零基础入门python爬虫[1]前言

python爬虫入门(代码片段)

python爬虫入门(4)bs4库实践文章目录python爬虫入门(4)一.信息组织与提取方法1.三种主要的信息组织形式2.信息提取的一般方法实例：提取HTML中所有URL链接3.基于bs4库的HTML内容查找方法find_all方法name参数attrs参数recursive参数strin... 查看详情

python爬虫入门教程：超级简单的python爬虫教程(代码片段)

这是一篇详细介绍[Python]爬虫入门的教程，从实战出发，适合初学者。读者只需在阅读过程紧跟文章思路，理清相应的实现代码，30分钟即可学会编写简单的Python爬虫。这篇Python爬虫教程主要讲解以下5部分内容ÿ... 查看详情

python爬虫入门(代码片段)

python爬虫入门(5)正则表达式在线正则表达式测试网站文章目录python爬虫入门(5)一.正则表达式1.简介2.语法常用操作符语法实例经典正则表达式匹配IP地址的正则表达式二.使用re模块1.findall2.search3.match4.==finditer==5.正则... 查看详情

python爬虫入门(代码片段)

python爬虫入门(9)XPath实战爬取猪八戒网信息猪八戒网是服务类电子商务交易平台，提供围绕中小微企业发展的一站式服务文章目录python爬虫入门(9)一.逐步实现1.查看页面源代码2.提取页面源代码3.生成etree对象4.得到XPath... 查看详情

如何入门python爬虫？爬虫原理及过程详解

“入门”是良好的动机，但是可能作用缓慢。如果你手里或者脑子里有一个项目，那么实践起来你会被目标驱动，而不会像学习模块一样慢慢学习。另外如果说知识体系里的每一个知识点是图里的点，依赖关系是边的话，... 查看详情