最基础网页爬虫

激动的阿涛 激动的阿涛     2022-09-03     369

关键词:

第一个网页文本爬虫程序(没有添加下载器):

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import os
 4 
 5 headers={User-Agent:"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTMl,like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
 6 url_begin= http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
 7 start_url=requests.get(url_begin,headers=headers)
 8 #print(start_url.text)
 9 Soup=BeautifulSoup(start_url.text,lxml)
10 link_list=Soup.find(div,class_="x-sidebar-left-content").find_all(a)
11 #print(link_list)
12 
13 for link in link_list:
14         url=http://www.liaoxuefeng.com + link[href]
15         html=requests.get(url,headers=headers)
16         html_Soup=BeautifulSoup(html.text,lxml)
17         title_list = html_Soup.find(div, class_="x-content").find_all(h4)
18         # print(title_list)
19         for title in title_list:
20             titlereal = title.get_text()
21             print(titlereal)
22 
23         content_list = html_Soup.find("div", class_="x-wiki-content").find_all(p)
24         for content in content_list:
25             # print(content)
26             contentreal = content.get_text()
27             print(contentreal)

 

 

 

 

第二个网页图片爬虫(引入os模块,可以将网页内容爬取到本地文件夹)

 1 import requests
 2 from bs4 import BeautifulSoup
 3 import os
 4 import urllib
 5 import urllib3
 6 
 7 url= http://www.dbmeinv.com/?pager_oofset=1
 8 x=0
 9 
10 def crawl(url):
11     headers = {
12         User-Agent: "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTMl,like Gecko) Chrome/22.0.1207.1 Safari/537.1"}
13     req=requests.get(url,headers=headers)
14 
15     Soup=BeautifulSoup(req.text,lxml)
16     link_list=Soup.find_all(img)
17     for girl in link_list:
18         link= girl.get(src)
19         print(link)
20 
21         global x
22         path=r/Users/wangxitao/Desktop/douban
23         local=os.path.join(path,image\%s.jpg%x)
24         urllib.request.urlretrieve(link,local)
25                                          #‘image\%s.jpg‘%x
26 
27         x+=1
28         print("正在下载第%s张"%x)
29 
30 for page in range(1,10):
31     page+=1
32     url=http://www.dbmeinv.com/?pager_offset=%d%page
33     crawl(url)
34 
35 print(爬取完毕)

 

python爬虫基础04-网页解析库xpath(代码片段)

更简单高效的HTML数据提取-Xpath本文地址:https://www.jianshu.com/p/90e4b83575e2XPath是一门在XML文档中查找信息的语言。XPath用于在XML文档中通过元素和属性进行导航。相比于BeautifulSoup,Xpath在提取数据时会更加的方便。安装在Python中很... 查看详情

爬虫基础2.2网页基础

2.2网页基础 ????浏览器浏览的网页,均是浏览器根据超文本,CSS,以及,JS,的解解析规则,对服务器返回的数据进行解析加载,进而变成我们所见的页面。?2.21网页的组成????1HTML构成网页的框架定义网页的内容????2CSS构成框架中... 查看详情

爬虫基础库(代码片段)

知识预览beautifulsoup的简单使用beautifulsoup的遍历文档树beautifulsoup的搜索文档树beautifulsoup的css选择器回到顶部beautifulsoup的简单使用简单来说,BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:‘‘‘Bea... 查看详情

python网络爬虫学习手记——爬虫基础

1、爬虫基本概念网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。--------百度百科简单的说,爬虫就是获取目标网页源... 查看详情

网页爬虫:零基础用爬虫爬取网页内容

...网页内容的教程,但一般需要写代码,没有相应基础的人要想短时间内上手,还是有门槛的。其实绝大多数场景下,用WebScraper(一个Chrome插件)就能迅速爬到目标内容,重要的是,不用下载东西... 查看详情

爬虫基础库(代码片段)

beautifulsoup的简单使用简单来说,BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:‘‘‘BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解... 查看详情

爬虫系列2.2爬虫基础2-网页结构进阶(代码片段)

个人公众号yk坤帝后台回复python金融基础获取源代码2.2.1HTML基础1-我的第一个网页HTML(HyperTextMarkupLanguage)是一种用于写这些框架的的标准标记语言,这一小节主要就是讲如何利用它来进行网页搭建。2.2.2代码编辑器荐一款代码... 查看详情

0基础学爬虫爬虫基础之网页解析库的使用(代码片段)

...、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬虫】专栏,帮助小白快速入门爬虫,本期为网页解析库的使用。概述前几期的文章中讲到了网络请求库的使用,我们已经能够使用各种库对目标网址发起请求,并... 查看详情

爬虫基础——网页(代码片段)

前言  爬虫要爬取的信息主要来自于网页加载的内容,有必要了解一些网页的知识。  当我们在浏览器网址栏输入一个网址——URL,经过TCP/IP协议簇的处理,这个网址请求的信息就被发送到URL对应的服务器,接着... 查看详情

1.最基本的爬虫~爬虫简单入门教程

...在上网,每天我们都在浏览器上访问网站,我们打开一个网页,接着又跳转到另一个网页,看到喜欢的内容,或者是一段幽默的句子,或者是一张美女的图片,我们会选择将其保存下来,当数量很多的时候,我们就会选择用程序... 查看详情

java网络爬虫基础学习

...理论知识的总结  主要参考文章:gitchat的java网络爬虫基础入门,好像要付费,也不贵,感觉内容对新手很友好。  一、爬虫介绍  网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网下载网页,是搜索引擎的重... 查看详情

爬虫技术之数据采集?

...作与网络也是分不开联系,而信息收集则成为网络生活最基础也最必不可少的部分。因此,诞生了一大批被称为“网络爬虫”的工作者,他们每天的工作就是利用程序脚本来收集各种大量的信息。而代理IP作为爬虫工作的基础,... 查看详情

python爬虫入门需要哪些基础

  从爬虫必要的几个基本需求来讲:  1.抓取  py的urllib不一定去用,但是要学,如果还没用过的话。  比较好的替代品有requests等第三方更人性化、成熟的库,如果pyer不了解各种库,那就白学了。  抓取最基本就是... 查看详情

python爬虫编程思想:网页基础(代码片段)

     目录1.HTML2.CSS3.CSS选择器4 .JavaScriptPython爬虫编程思想(4):网络爬虫的基本原理        整个互联网拥有数以亿计的网页,这些网页的样式千差万别,但不管是什么样的网页,都离不开Web三剑客... 查看详情

java实现网络爬虫-java入门|java基础课程

目标网络爬虫的是做什么的?手动写一个简单的网络爬虫;1.网络爬虫1.1.名称网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自... 查看详情

网络爬虫基础一

爬虫的分类按使用场景:通用爬虫:指搜索引擎的爬虫聚焦爬虫:指针对特定网站的爬虫聚焦爬虫又可以分为大致3种:累积式爬虫:从开始到结束,一直不断爬取,过程中会进行去重操作;增量式爬虫:对已经下载的网页采取增量... 查看详情

1,爬虫入门之爬虫基础了解

1.什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一只蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如... 查看详情

系统学习金融数据挖掘之爬虫技术基础(附源代码)(网页结构基础)

个人公众号yk坤帝后台回复python金融基础获取源代码1.爬虫基础1-网页结构基础1.1浏览器F12的运用,以及如何看网页源代码首先安装谷歌浏览器:从官网https://www.google.cn/chrome/下载当然用别的浏览器,比如火狐浏览器等... 查看详情