python——网络爬虫,一个简单的通用代码框架(代码片段)

kekefu kekefu     2022-12-24     325

关键词:

一、代码
"""
通用代码框架:可使网页爬取变得更稳定更有效

下面是一个爬取百度网页的例子,
正常情况下是返回
"""
import requests


def get_HTML_Text():
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
# 若状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding
return r.text
except:
return \'产生异常!\'


if __name__ == \'__main__\':
url = "http://www.baidu.com"
print(get_HTML_Text()
二、结果分析
正常情况:其实去掉三个www中的一个也会正常

 

 异常情况1:

 

 

 

异常情况2:

 

 异常情况3:

 

 

三、总结
异常情况的原因多样,通用代码框架并不能包含全部异常,代码写正确才是王道
 
 



爬虫框架——scrapy(代码片段)

...开源和协作的框架,其最初是为了页面抓取(更确切来说,网络抓取)所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可... 查看详情

爬虫系列之scrapy框架(代码片段)

...基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。整体架构大致如下:'''Components:1、引擎(EGINE)引擎负责控制系统所有组件之间的数据... 查看详情

python爬虫一个简单的网络爬虫(代码片段)

网页结构的相似性爬虫的目的,是从网站中 自动化 的 批量 提取数据。首先尝试完成以下操作:从以下链接中提取电影的标题和标题后的年份:https://movie.douban.com/subject/1292052/https://movie.douban.com/subject/1962665/https://movi... 查看详情

爬虫之scrapy框架(代码片段)

...开源和协作的框架,其最初是为了页面抓取(更确切来说,网络抓取)所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可... 查看详情

python零基础入门爬虫原理与数据抓取-通用爬虫和聚焦爬虫(代码片段)

​根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的... 查看详情

python零基础入门爬虫原理与数据抓取-通用爬虫和聚焦爬虫(代码片段)

​根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的... 查看详情

pyspider爬虫简单框架(代码片段)

...国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器官方文档:http://docs.pyspider.org/en/latest/开源地 查看详情

爬虫框架:scrapy(代码片段)

...基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。整体架构大致如下Components:引擎(EGINE)引擎负责控制系统所有组件之间的数据流,并在某些动... 查看详情

网络爬虫简介

...,对速度和效率要求比较高。2,Java:生态圈很完善,是Python爬虫最大的竞争对手。但是Java语言本身很笨重,代码量很大。重构成本比较高,任何修改会导致代码大量改动。爬虫经常要修改采集代码。3,C/C++:运行效率是无敌的... 查看详情

5爬虫之scrapy框架(代码片段)

...基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。整体架构大致如下:Components:1、引擎(EGINE)引擎负责控制系统所有组件之间的数据流,并在某... 查看详情

python:python常用开发框架framework(web测试爬虫)总结(代码片段)

Python_Framework介绍Python开发框架是一组用于简化和加速Python应用程序开发的库和工具。它们提供了一系列预定义的功能和结构,以便开发者能够快速构建、测试和维护应用程序。总结Python的开发框架,包括:Web框架、... 查看详情

值得收藏的python第三方库

...站点爬取框架。MechanicalSoup–用于自动和网络站点交互的Python库。portia–Scrapy可视化爬取。pyspider–一个强大的爬虫系统。RoboBrowser–一个简单的,Python风格的库,用来浏览网站,而不需要一个独立安装的浏览器。交互式解析器交... 查看详情

scrapy爬虫框架安装及简单使用

... ??二、Scrapy安装介绍 Scrapy框架运行平台及相关辅助工具 Python?2.7(Python最新版3.5,这里选择了2.7版本) PythonPackage:?pip?and?setuptools.现在?pip?依赖?setuptools?,如果未安装,则会自动安装setuptools?。 lxml.大多数Linux发行版自带了lxml。... 查看详情

pyrthon简单爬虫实现

...;本文首发:ZKeeer’sBlog——简单爬虫的通用步骤代码基于python3.5多图预警,长文预警知识点很多,适合小白,大神绕路 1.获取数据爬虫,就是要千方百计地装成浏览器从网站骗数据。——我说的1.1从requests.get()说起最开始一... 查看详情

scrapy爬虫框架(代码片段)

...基于twisted框架开发而来,twisted是一个流行的事件驱动的python网络框架。因此Scrapy使用了一种非阻塞(又名异步)的代码来实现并发。整体架构大致如下执行流程:1.引擎从spider获取初始爬行请求。2.引擎在调度程序中调度请求,... 查看详情

python都有哪些常见的,好用的爬虫框架

网络爬虫的抓取策略有很多种,按照系统结构和实现技术,大致可以分为以下几种:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量式网络爬虫(IncrementalWebCrawler)、深层网络爬虫(DeepWebCrawler)。... 查看详情

python网络爬虫实战-scrapy,深入理解scrapy框架,解决数据抓取过程

一前言二网络爬虫简介审查元素简单实例1requests安装2简单实例三爬虫实战小说下载1实战背景2小试牛刀3BeautifulSoup3整合代码优美壁纸下载1实战背景2实战进阶3整合代码爱奇艺VIP视频下载1实战背景2实战升级3编写代码四总结 一... 查看详情

python大神们都在用的爬虫工具,你知道几个?

Python爬虫的工具列表大全网络通用异步网络爬虫框架功能齐全的爬虫其他HTML/XML解析器通用清理文本处理通用转换字符编码Slug化通用解析器人的名字电话号码用户代理字符串特定格式文件处理通用OfficePDFMarkdownYAMLCSSATOM/RSSSQLHTTP微... 查看详情