androidjsoup爬取网页数据

lovejjfg      2022-02-09     113

关键词:

一不小心一个月又过去了,其实最近还是小忙小忙的,废话不多说,直接进入今天的主题吧。

Jsoup – Java HTML Parser, with best of DOM, CSS, and jquery.,看这个介绍就知道,这个就是方便咱们 JavaAndroid 来解析 HTML 的。

HTML 标签

要去爬别人的 HTML 标签的话,首先你肯定得有一定的 HTML 的基础知识吧。比如说常用的标签,标签的相关属性,这个就不多说了,有相关问题都可以在 www.w3school.com.cn 的网站解决一下。

加载网页

最简单的,直接加载一个网页:

  Document document = Jsoup.connect("https://www.google.com").get();

那看到最后的 get() 方法聪明滴你一定就猜到还有一个对应的 post() 方法了吧。另外,http 请求的相关操作都是可以设置的,包括 header 请求参数,请求超时等等。除此之外,本地的文件(IO流)等都是可以直接解析的哈。

Document document = Jsoup.connect("https://android-arsenal.com")
        .timeout(5000)
        .cookie("cookie", "cxxx")
        .header("xx", "xx")
        .userAgent("")
        .get();

基本标签解析

之后咱们就得到了一个 Document 的对象了。这个对象就是对整个请求网页的封装,相关内容都可以在里面获取。

来吧,加入我们有下面一段html标签需要解析:

<div class="project-info clearfix">
    <div class="header">
        <div class="title">
            <a href="/details/1/5442">RendererRecyclerViewAdapter</a>
            <a class="tags" href="/tag/199">Recycler Views</a>
        </div>
        <a class="badge free" href="/free">Free</a>
        <a class="badge new" href="/recent">New</a>
    </div>
    <div class="desc">
        <p>A single adapter for the whole project.</p>
        <ul>
        <li>Now you do not need to implement adapters for RecyclerView.</li>
        <li>You can easily use several types of cells in a single list.</li>
        <li>Using this library will protect you from the appearance of any business logic in an adapter.</li>
        </ul>
    </div>
    <div class="ftr l"><i class="fa fa-calendar"></i> Mar 17, 2017</div>
</div>

Jsoup 里面对于标签的寻找使用的方法是 select() 方法,这个方法不要太强大了。咱们一步一步的来。

比如我们要在茫茫标签中找到 <div class="project-info clearfix"> 的话,拿这里就是应该 findElementByClass() ,那么在 Jsoup 中是怎么定义这一块的呢?

技术分享

哈哈,很easy嘛,那就是 document.select("div.project-info clearfix") 咯,当然不是这样子的,等等 class 属性里面这个空格是什么意思啊?是不是一脸懵逼?这里最终的写法是 document.select("div.project-info.clearfix") 空格需要用 . 来处理。

      Elements select = document.select("div.project-info.clearfix");

这里得到是一个集合。我们接下来就需要遍历这个集合,然后把里面的每一个标签都拔出来。

title 部分的解析,这里是一个 <div> 里面嵌套了一个 <a> 的标签。这里就涉及到了解析 <a> 标签了。这里我们需要对应的 href,也需要对应的 textJsoup 提供了对应的两个方法 attr()text()

Elements elements = e.select("div.title");
if (!elements.isEmpty()) {
    for (Element tittle : elements) {
        Element first = tittle.select("a[href]").first();
        if (first != null) {
            title = first.text();
            titleUrl = first.attr("href");
            System.out.println("名称:" + title);
            System.out.println("具体地址:" + titleUrl);
        }

        Elements select1 = tittle.select("a.tags");
        if (!select1.isEmpty()) {
            tag = select1.text();
            tagUrl = select1.attr("href");
            System.out.println("tags:" + tag);
            System.out.println("tagUrl:" + tagUrl);
        }
    }
}   

嵌套解析

到这里, <div><a> 标签的介绍基本搞定,接下来就是 <div class="desc"> 的解析了。

<div class="desc">
    <p>A single adapter for the whole project.</p>
    <ul>
    <li>Now you do not need to implement adapters for RecyclerView.</li>
    <li>You can easily use several types of cells in a single list.</li>
    <li>Using this library will protect you from the appearance of any business logic in an adapter.</li>
    </ul>
</div>

这里又多了 <ul><li> 了,其实道理是差不多的,但是这里它们既没有 class 也没有 id ,那这个我们应该这么去解析呢?

这里还是要回到 select() 方法,这里就需要使用到指定层级的方法了。

技术分享

        Elements select1 = e.select("div.desc > p");
        String s = select1.toString();

对于 <dt> <dd> 相关的标签,就可以使用 + 相关的连接符了。例如我想要只解析 Tag 下面的对应的 Tag 名称和相关的 url,这个应该怎么写呢?

<dt>Tag</dt>
<dd><a href="/tag/9">Background Processing</a></dd>
<dt>License</dt>
<dd><a href="http://opensource.org/licenses/Apache-2.0" rel="nofollow" target="_blank">Apache License, Version 2.0</a>
</dd>

代码就是这样的,这里一不小心就又引出了 select() 方法的嵌套高级写法。

 Elements select4 = element.select("dt:contains(Tag) + dd");

技术分享

其实不用太多解释啦,截图里面描述的很清楚了。最后一个是可以支持正则的匹配。

同级相邻解析

还有一种情况就是我们需要的标签没有具体的 id 或者 class,并且它没有直接对应的父标签或者某种固定的嵌套关系,例如下面这种情况:

<a id="favoriteButton" href="#" class="fa fa-star-o favorite tshadow" title="Add to favorites"></a> 
<a href="/details/1/5244">ImmediateLooperScheduler</a> <div id="githubInfoValue">

这里我们只需要解析到第二个 <a> 标签,那么需要怎么处理呢?这里就需要使用到 nextElementSibling() 的方法了。

Element ssa = h1.select("a#favoriteButton").first();
Element element = ssa.nextElementSibling();
String title = element.text();

模糊解析

技术分享

有时候我们只知道这个 <div> 是以 什么开头或者是以什么结尾或者又是里面包含了某个单词的,那么这个时候就需要使用模糊查找了。

Jsoup 中定义了这些情况的相关 select() 写法,其中,以什么开头,是使用 a[href^=http] ,以什么结尾使用 a[href$=.jpg] ,包含什么就是使用 a[href*=/search/]

javascript 解析

刚刚说的都是普通标签及其内容,如果我要获取js相关的标签以及内容呢?其实也不难,只是最后不是使用text()的方法,而是使用data()的方法了。

就是 Jsoup 最主要的就是写好这个 select() 方法,

final Elements script = document.select("script");

String js = script.first().data();

相关实战

Android-Arsenal 这个网站不造大家伙儿有听说过没?这里给我们Android开发者提供了了一个信息交流展示平台,实时更新一些Android相关的App,开发库、以及Demo。然后,我看到它也有自己的客户端,所以一时好奇也打算下载下来看看,结果,客户端就是直接加载的网页,关键是广告满天飞。这个就让人不好受了(话说回来,人家不打广告赚点儿钱做这个平台干嘛呢。)

所以灵机一动,为什么我不自己搞一个 Android-Arsenal 的客户端呢?这样方便在手机上看到最新的东西嘛。所以就做了一个客户端,而使用的就是Jsoup 来爬去的对应的网页。然后就把对应 ads 的标签都过滤了,所以是很清爽的啦。当然功能也只是先实现了一部分。喜欢的朋友可以点个星星或者下载使用哟!

最后来一波效果图:

项目地址:https://github.com/lovejjfg/Android-Arsenal

技术分享

技术分享

技术分享

技术分享

技术分享

技术分享

—- Edit By Joe At 2017 03 18 —-

爬取网页数据(代码片段)

importurllib.request#r=urllib.request.urlopen("http://183.247.167.54:7009/#/map")#print(r.read())#爬取网页源码r=urllib.request.urlopen("http://183.247.167.54:7009/static/img/logo.ac2237a.png")rs=r.read()withopen("1.png","wb")asa:a.write(rs)#爬取图片  查看详情

原创用phantomjs爬取网页数据

首先介绍今天的主角!interpreter:Seleniumapp:PhantomJS  既然是interpreter,Selenium是可以按照我第一篇博客的做法下载的。PhantomJS呢,可以直接通过我给的链接里面进行下载。当两个都安装完毕,就能正式地开始进行数据抓取了。... 查看详情

python获取网页精准爬取数据

importreimporturllib.requeststring=‘<divclass="name">(.*?)</div>‘huo=urllib.request.urlopen("https://read.douban.com/provider/all").read()huo=huo.decode("utf-8")huo1=re.compile(string).fin 查看详情

c#爬取网页上的数据

      最近工作中需求定时爬取不同城市每天的温度。其实就是通过编程的方法去抓取不同网站网页进行分析筛选的过程。.NET提供了很多类去访问并获得远程网页的数据,比如WebClient类和HttpWebRequest类。这些... 查看详情

如何用python爬取网页数据,python爬取网页详细教程(代码片段)

大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情。1、如何用Python爬虫抓取网页内容?爬虫... 查看详情

python3爬取网页图片

爬虫思路一、确定要爬取的页面——确定目标1.打开含有图片的网页2.打开页面代码:右键——>查看源代码二、分析网页内容1.url路径格式2.数据格式(常见html文档格式)3.网页数据编码格式(常见utf-8)三、代码实现、运行、修改代... 查看详情

python爬取世纪佳缘,经过js渲染过的网页的爬取

#!/usr/bin/python#-*-coding:utf-8-*-#爬取世纪佳缘#这个网站是真的烦,刚开始的时候用scrapy框架写,但是因为刚接触框架,碰到js渲染的页面之后就没办法了,所以就采用一般的爬虫了#js渲染过的数据,可能在网页源码里面没有数据,需要js... 查看详情

python开发爬虫之动态网页抓取篇:爬取博客评论数据

以爬取《Python网络爬虫:从入门到实践》一书作者的个人博客评论为例。网址:http://www.santostang.com/2017/03/02/hello-world/1)“抓包”:找到真实的数据地址 右键点击“检查”,点击“network”,选择“js”。刷新一下页面,选中... 查看详情

慕课平台的后台数据可以爬取吗

...技术A可以。软件已经给出一定的模板了,可以直接操作爬取;另外没有的可以输入链接爬取(教程里有)。.可以爬取网页显示的所有东西,包括:本网页的信息,该网页信息的链接网页,下一页(可设定页数,不设定可能停不... 查看详情

python开发简单爬虫之静态网页抓取篇:爬取“豆瓣电影top250”电影数据

目标:爬取豆瓣电影TOP250的所有电影名称,网址为:https://movie.douban.com/top2501)确定目标网站的请求头: 打开目标网站,在网页空白处点击鼠标右键,选择“检查”。(小编使用的是谷歌浏览器)。点击“network”,在弹出页... 查看详情

python网络爬虫技巧小总结,静态动态网页轻松爬取数据

...态网页对于静态网页的爬虫不用多说大家也都知道,因为爬取静态网页非常的简单,只要用requests直接把html爬取下来然后用正则表达式匹配就可以了。 动态网页相对于静态网页的简单,但 查看详情

推荐oc解析html数据的类库(爬取网页数据)

  TFhpple是一个用于解析html数据的第三方库,本人感觉功能还算可以,只不过在使用前必须配置项目。    配置1.导入libxml2.tbd 2.设置编译路径   使用这里使用一个例子来说明http://so.gushiwen.org/guwen/book_2.aspx &nb... 查看详情

关于python爬取网页

importurllib.requestfrombs4importBeautifulSoupimportxlwtimportredefmain():#爬取网页baseurl='https://movie.douban.com/top250?start='datalist=getData(baseurl)savepath='豆瓣电影Top250.xls'#保存数据saveData(datal 查看详情

python爬取一个指定网页(代码片段)

今天事情有点多,只能先学一点点了importurllib.requestfile=urllib.request.urlopen("http://www.baidu.com")#urllib.request.urlopen调用方法并指定网页data=file.read()#爬取所以数据dataline=file.readline()#爬取一列数据print(data)print(dataline)f 查看详情

python爬虫可以爬取网页见不到的东西吗如web后台数据库

相当于已知一网站可以爬取次网站的后台数据,爬取后台数据库里数据吗,如此网站注册的人员资料吗只有在网站上显示的东西才能爬到,或者网页看不到,是网页请求的接口返回的数据这些数据都可以拿到,其他的数据库结构... 查看详情

【python爬虫实战】爬取豆瓣影评数据

参考技术A爬取豆瓣影评数据步骤:1、获取网页请求2、解析获取的网页3、提速数据4、保存文件 查看详情

java正则表达式--网页爬虫

...其实就一个程序用于在互联网中获取符合指定规则的数据爬取邮箱地址,爬取的源不同,本地爬取或者是网络爬取(1)爬取本地数据:1publicstaticList<String>getMails()throwsIOException{2//1.读取源文件3//爬取本地文件4BufferedReaderbufr=newBuf... 查看详情

使用进程池模拟多进程爬取url获取数据,使用进程绑定的回调函数去处理数据(代码片段)

1#使用requests请求网页,爬取网页的内容23#模拟使用进程池模拟多进程爬取网页获取数据,使用进程绑定的回调函数去处理数据45importrequests6frommultiprocessingimportPool78#response=requests.get(‘http://www.baidu.com‘)#访问网页获取网页内容,... 查看详情