爬虫开坑之路

rivervan rivervan     2022-11-17     462

关键词:

什么是爬虫

  网络爬虫(web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网网络机器人(bots)。爬虫是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种条件把互联网上所有的网页都抓取完为止的技术。

 技术分享图片

                      某爬虫的结构  

爬虫的工作原理

  简单来说就是从给定的入口进入然后按逻辑获取需要的信息资源。原理主要是通过http或者其他协议,发送请求到目标接口,然后解析返回的内容成结构化数据存储到本地。

URL(爬虫的开始)

  URL(A Uniform Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

  而爬虫就是根据预先设定的一个或若干初始种子URL开始,以此获得初始网页上的URL列表,在爬行过程中不断从URL队列中获一个的URL,进而访问并下载该页面。页面下载后页面解析器去掉页面上的HTML标记后得到页面内容,将摘要、URL等信息保存到Web数据库中,同时抽取当前页面上新的URL,保存到URL队列,直到满足所设定停止条件。

 

  URL 的格式由三部分组成:

     第一部分是协议(或称为服务方式)。(http)

    第二部分是存有该资源的主机IP地址(有时也包括端口号)。(www.example.com)

    第三部分是主机资源的具体地址,如目录和文件名等。(index.html)

  这样就是一个基本的URL:http://www.example.com/index.html

环境配置

  本鶸的爬虫开坑之路都是基于Ubuntu + Python3.6.5 + Pycharm的,在Linux下还是Jetbrains.的IDE比较好用。代码编辑器可以选择Sublime Text 3,VS code或者notepad++,这个就看自己的喜好了,下部分正式开坑...

 

  

 

20170425开始我的爬虫之路

潜伏了两天,认真学习了爬虫,现在开始模仿别人写我的小爬虫代码了,第一个爬虫开始扒一下新浪国内新闻:http://news.sina.com.cn/china/开始:importrequests#插入请求模块frombs4importBeautifulSoup#从BS4导入BeautifulSoupimportos#插入os模块用于... 查看详情

python爬虫实战,爬虫之路,永无止境(代码片段)

python爬虫实战好久没给大家跟新爬虫文章了,抱歉抱歉,这期给大家带来一篇小爬虫,希望大家喜欢,喜欢的来个关注,支持一下博主,谢谢各位了。写代码了各位宝宝们这里要注意一点就是要记得提前登... 查看详情

救赎之路ⅱ

...件[0/1]巩固MRPR[0/1]杜教筛[0/1]现在做了多少?5/150[2017.7.10]开坑..状态回暖..独立想题的时间不多,还是很难自己做出一道题..4872:[Shoi2017]分手是祝愿可以算出每种状态的最少步数那么最少步数相同的状态其实是等效的就设$f(x)$为最... 查看详情

python爬虫成长之路:抓取证券之星的股票数据(代码片段)

...sp; 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一。鉴于此,我拾起了Python这把利器,开启了网络爬虫之路。     本篇使用的版本为python3.5,意在抓取证券之星上当... 查看详情

[js高手之路]node.js实现简易的爬虫-抓取博客所有文章列表信息

...法几乎跟jquery用法一模一样,所以有了这个利器,写一个爬虫就非常简单准备工作:1,npminit--yes初始化package.js 查看详情

python爬虫实战,爬虫之路,永无止境(代码片段)

python爬虫实战好久没给大家跟新爬虫文章了,抱歉抱歉,这期给大家带来一篇小爬虫,希望大家喜欢,喜欢的来个关注,支持一下博主,谢谢各位了。写代码了各位宝宝们这里要注意一点就是要记得提前登... 查看详情

python爬虫实战,爬虫之路,永无止境(代码片段)

python爬虫实战好久没给大家跟新爬虫文章了,抱歉抱歉,这期给大家带来一篇小爬虫,希望大家喜欢,喜欢的来个关注,支持一下博主,谢谢各位了。写代码了各位宝宝们这里要注意一点就是要记得提前登... 查看详情

用python爬取某宝热卖网站商品信息(爬虫之路,永无止境!)(代码片段)

用python爬取某宝热卖网站商品信息(爬虫之路,永无止境!)代码操作展示:开发环境:windows10python3.6开发工具:pycharmchromedriver库:selenium、os、csv代码全解安装插件首先要安装webdriver插件,本... 查看详情

app爬虫之路:海量食谱数据爬取存储到mysql!!!(代码片段)

文章目录前言App数据抓包分析完整代码爬取结果最后前言App数据抓包分析打开豆果美食APP得到对应的JSON数据对应代码url="https://api.douguo.net/recipe/flatcatalogs"data="client":"4,","_vs":"0",count=0re 查看详情

开坑unityeditor

编辑器扩展这部分东西以前还是不太想碰的,感觉东西又多又难,但目前需要来做一些自定义插件,提升效率,走起!先贴一下官方的UnityEditorAPI:https://docs.unity3d.com/ScriptReference/UnityEditor.html 查看详情

rollo的python之路python爬虫系统学习requests模块学习(代码片段)

Requests模块学习:1.0 Requests初识Requests模块是一个第三方的库,首先我们要安装Requests.用pip安装,先看一下pip是哪个python的版本。 pip--version 然后用pip安装就OKpipinstallrequests 开始要导入Requests模块importrequests然后我们... 查看详情

用python爬取去哪儿游记攻略为十月假期做准备。。。爬虫之路,永无止境!(代码片段)

用python爬取去哪儿游记攻略为十月假期做准备。。。爬虫之路,永无止境!热热闹闹的开学季又来了,小伙伴们又可以在一起玩耍了,不对是在一起学习了,哈哈。再过几周就是国庆假期,想想还是很激动... 查看详情

教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!!(代码片段)

教你用python实现34行代码爬取东方财富网信息,爬虫之路,永无止境!!代码展示:开发环境:windows10python3.6开发工具:pycharmweddriver库:selenium、lxml、openpyxl、time安装webdriver首先要安装webdriver插件&# 查看详情

开坑!javascriptamd模块的设计与实现

开个坑,慢慢学习总结JavaScript的AMD规范先把自己写的一个简易实现放上来,然后慢慢从0開始解说一下AMD,以及怎样自己动手实现一个AMD(function(w,DOC){ var_$=w.$; varhead=DOC.head||DOC.getElementsByTagName(‘head‘)[0]; varhtml=DOC.documentElement; varW3C=DOC... 查看详情

projecteuler开坑

pe76:要把100写成至少2个数的和的形式,有多少种方案数整数拆分f(i,j)表示把i拆分成不超过j的数的和的方案数f(i,j)=f(i-j,j)+f(i,j-1) j<=if(i,j)=f(i,i)               & 查看详情

开坑:钟馗眼(eyesofzk)

 学长拉我进了个群,感觉把人家的朋友圈都拉低了,见识到了很厉害的人,深深感到自己是彩笔,所以也想写一点小东西,希望能给这个社会带来哪怕一点点正面影响... 钟馗眼(EyesofZK)开发初衷:   在求职者... 查看详情

python之路

01-计算机基础02-Linux基础03-Python基础04-函数05-模块和包06-面向对象07-并发编程08-网络编程09-数据库10-前端11-Web框架12-爬虫13-数据分析 查看详情

html开坑(代码片段)

Html不仅仅做网页,做属性输入和配置文件也不错配置个visualstudiohelloworld配置个visualstudio因为也不是新手,跳过用txt文本来写之类的东西了!配置了一个VS的编译器,好用啊!html各种提示,只需要简单下一... 查看详情