spider-聚焦爬虫与通用爬虫的区别(代码片段)

python-xiacaip python-xiacaip     2023-02-18     480

关键词:

为什么要学习爬虫?
学习爬虫,可以私人订制一个搜索引擎。
大数据时代,要进行数据分析,首先要有数据源。
对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化。
什么是网络爬虫?
模拟客户端发送网络请求,接收请求对应的数据,按照一定的规则,自动抓取互联网信息的程序。
 
只要是客户端(浏览器)能做的的事情,原则上,爬虫都能做。意思就是,只要人类能够访问的网页,爬虫在具备铜等资源的情况下就一定可以抓取。
 
爬虫的用途
主要用:途数据采集
 
其他用途:12306抢票、各种抢购、投票、刷票、短信轰炸、网络攻击、Web漏洞扫描器
 
爬虫数据的用途
1.金融          金融新闻/数据            制定投资策略,进行量化交易
2.旅游          各类信息                优化出行策略
3.电商          商品信息                比价系统
4.游戏          游戏论坛                调整游戏运营
5.银行          个人交易信息             征信系统/贷款评级
6.招聘          职位信息                岗位信息
7.舆情          各大论坛                社会群体感知,舆论导向
 
通用爬虫
通用爬虫:搜索引擎用的爬虫系统。搜索引擎和web服务商提供的爬虫。
 
目标:
就是尽可能的;把互联网上的所有的网页下载下来,放到本地服务器里形成备分,在对这些网页做相关处理(提取关键字、去掉广告),最后提供一个用户检索接口。
抓取流程:
首先选取一部分URL,把这些URL放到待爬取队列。
 
从队列取出URL,然后解析DNS得到主机IP,然后保存这个IP对应的服务器里下载HTML页面,保存到搜索引擎的本级服务器,之后把这个爬过的url放入已爬过的队列。
 
分析这些网页内容,找出网页里其他的URL链接,继续执行第二步,知道爬取结束
 
搜索引擎如何获取一个新网站的URL:
a)主动向搜索引擎提交网站
B)在其他网站里设置外联
C)索引擎会和DNS服务商服务商进行合作,可以快速收录新的网站
 
DNS把域名解析成IP的一种技术。
 
通用爬虫并不是万物皆可爬取,他也要遵循规则:
Robots协议:协议会指明通用爬虫可以爬取网页的权限(告诉搜索引擎那些可以抓取,那些不可以抓取)
 
Robots.txt 并不是所有的爬虫都遵守,一般只有大型的搜索引擎爬虫才会遵守
 
存在位置:robots.txt文件应该放置在网站根目录下
 
例如:https://www.taobao.com/robots.txt
 
通用爬虫工作流程:
爬取网页 存储数据 内容处理 提供检索/排名服务
 
搜索引擎排名:
1.PageRank值:根据网站的流量(点击量/浏览量/人气)统计,流量越高,网站排名越靠前。
 
2.竞价排名:谁给的钱多,谁排名就高。
 
通用爬虫的缺点:
1.只能提供和文本相关的内容(HTML、Word、PDF)等等,但是不能提供多媒体文件(音乐、图片、视频)和二进制文件(程序、脚本)
 
2.提供的结果千篇一律,不等针对不同背景领域的人提供不同的搜索结果
 
3.不能提供人类语义上的检索
 
通用搜索引擎的局限性
1.通用搜索引擎所返回的网页里90%的内容无用。
 
2.中文搜索引擎自然语言检索理解困难
 
3.信息占有量和覆盖率存在局限。
 
4.搜索引擎最主要的还是以关键字搜索为主,对于图片、数据库、音频、视频多媒体的内容通用搜索引擎无能为力。
 
5.搜索引擎的社区化和个性化不好,大多数搜索引擎没有考虑人的地域,性别,年龄的差别
 
6.搜索引擎抓取动态网页效果不好
 
  解决通用爬虫的缺点,聚焦爬虫出现了。
 
聚焦爬虫
聚焦爬虫:爬虫程序员写的针对某种内容爬虫。
面向主题爬虫、面向需求爬虫:会针对某种特定的能容去爬取信息,而且保证内容需求尽可能相关。
 
1.积累式爬虫:从开始到结束,不断爬取,过程中会进行重复操作。
 
2.增量式爬虫:已下载网页采取增量式更新和只爬取新产生的或者已经发生变化网页爬虫
 
3.Deep web爬虫:不能通过静态链接获取的、隐藏在搜索表单后的,只有用户提交一些关键词才能获得的web页面

 

聚焦爬虫与通用爬虫的区别

为什么要学习爬虫?学习爬虫,可以私人订制一个搜索引擎。大数据时代,要进行数据分析,首先要有数据源。对于很多SEO从业者来说,从而可以更好地进行搜索引擎优化。什么是网络爬虫?模拟客户端发送网络请求,接收请求... 查看详情

python零基础入门爬虫原理与数据抓取-通用爬虫和聚焦爬虫(代码片段)

​根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的... 查看详情

python零基础入门爬虫原理与数据抓取-通用爬虫和聚焦爬虫(代码片段)

​根据使用场景,网络爬虫可分为通用爬虫和聚焦爬虫两种.通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的... 查看详情

通用爬虫模块使用(上)(代码片段)

...f1a;爬虫的流程爬虫的分类爬虫分为两种:通用爬虫和聚焦爬虫通用爬虫:通常指搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫两种爬虫的工作流程二:HTTP与HTTPSURL的形式:HTTP请求形式:HTTP常用请求头&#x... 查看详情

python爬虫之正则表达式(代码片段)

...达式0.介绍爬虫的分类:网络爬虫可分为通用爬虫和聚焦爬虫两种通用爬虫:通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互... 查看详情

1.1.(了解)通用爬虫和聚焦爬虫

通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形... 查看详情

通用爬虫和聚焦爬虫

爬虫分为两个领域:聚焦爬虫和通用爬虫。通用爬虫:  搜索引擎用的爬虫系统。目标:  搜索互联网所有的信息下载下来,放到本地服务器,再对这些网页进行相关处理,提取关键字什么的,最终给用户提供一个检索的接... 查看详情

爬虫学习—疫情篇(代码片段)

...虫的分类:   通用爬虫:搜索引擎的爬虫   聚焦爬虫:针对特定网站的爬虫可以看出来了,我们一般用的都是聚焦爬虫吧 2、聚焦爬虫的工作流程:   (1)明确URL(请求地址,明确爬什... 查看详情

整站爬虫(代码片段)

...取拉钩:先进入虚拟环境workon……先介绍一个命令scrapygenspider--list>>>basiccrawlcsvfeedxmlfeed如果不指定默认是basic新建拉勾网的爬虫scrapygenspider-tcrawllagouwww.lagou.comCrawlSpider是scrapy提供一个通用Spider。在Spider里面,我们可以指定... 查看详情

爬虫初识(代码片段)

...据的过程。爬虫分类?通用爬虫抓取整张网页的全部内容聚焦爬虫抓去一张页面的部分内容通用爬虫和聚焦爬虫的关联:聚焦是建立在通用爬虫的基础上增量式监测网站数据的更新情况,以便将最新的数据进行爬取。reqeusts基本... 查看详情

爬虫数据解析(代码片段)

1、今日学习提纲    聚焦爬虫、正则、bs4、xpath2、聚焦爬虫:爬取页面中指定的页面内容  --编码流程:    --指定url    --发起请求    --获取响应数据    --数据解析    --持久化存储3、数据解析... 查看详情

爬虫入门(代码片段)

...为以下几种类型:通用网络爬虫(GeneralPurposeWebCrawler)、聚焦网络爬虫(FocusedWebCrawler)、增量式网络爬虫(IncrementalWeb 查看详情

scrapy爬虫进阶crawlspider类的使用(代码片段)

Scrapy的crawlspider爬虫1.crawlspider是什么2.创建crawlspider爬虫并观察爬虫内的默认内容2.1创建crawlspider爬虫:2.2spider中默认生成的内容如下:2.3观察跟普通的scrapy.spider的区别3.crawlspider网易招聘爬虫4.crawlspider使用的注意点5.了解... 查看详情

爬虫2.1-scrapy框架-两种爬虫对比(代码片段)

目录scrapy框架-两种爬虫对比和大概流程1.传统spider爬虫2.crawl型爬虫3.循环页面请求4.scrapy框架爬虫的大致流程scrapy框架-两种爬虫对比和大概流程注:spider.py指使用命令行创建的爬虫主文件1.传统spider爬虫创建scrapy项目,首先进入... 查看详情

scrapy通用爬虫及反爬技巧(代码片段)

...。在逻辑上十分简单(相较于具有很多提取规则的复杂的spider),数据会在另外的阶段进行后处理(post-processed)并行爬取大量网站以避免被某个网站的限制所限制爬取的速度(为表示尊重,每个站点爬取速度很慢但同时爬取很多站点)... 查看详情

爬虫涉及的知识体系(代码片段)

...爬虫就是指:可以获取网页信息的程序又分为通用爬虫和聚焦爬虫1)通用爬虫:从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因... 查看详情

爬虫基础(代码片段)

...都能够做.2.爬虫的分类通用爬虫:通常指搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫3.robots协议Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅 查看详情

spider爬虫文件基本参数(代码片段)

 一代码 #-*-coding:utf-8-*-importscrapyclassZhihuSpider(scrapy.Spider):#爬虫名字,名字唯一,允许自定义name=‘zhihu‘#允许爬取的域名,scrapy每次发起的url爬取数据,先回进行域名检测,检测通过就爬取allowed_domains=[‘zhihu.com‘]#发起的起始url... 查看详情