正文

推荐oc解析html数据的类库（爬取网页数据）

ForrestWoo  2022-02-10  256

关键词：

　　TFhpple是一个用于解析html数据的第三方库，本人感觉功能还算可以，只不过在使用前必须配置项目。

　　配置

1.导入libxml2.tbd

2.设置编译路径

技术分享

　　使用

这里使用一个例子来说明

http://so.gushiwen.org/guwen/book_2.aspx

1.创建TFHpple对象，data为网站返回的数据

TFHpple *htmlParser = [[TFHpple alloc] initWithHTMLData:data];

2.使用searchWithXPathQuery方法得到有用数据，XPATH知识具体百度

NSArray *temp1 = [htmlParser searchWithXPathQuery:@"//div[@class=‘shileft‘]/div[@class=‘bookcont‘]"]

这样我们获取了论语的数据

3。获取并分析元素

TFHppleElement *element = [elements objectAtIndex:i];

TFHppleElement对象包含许多属性，下面简单介绍一下各属性

1。

@property (nonatomic, copy, readonly) NSString *raw

raw是包含html标记的网页数据

<div class="bookcont">&#13;
        <ul>&#13;
         &#13;
              <span><a href="/guwen/bookv_19.aspx">学而篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_20.aspx">为政篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_21.aspx">八佾篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_22.aspx">里仁篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_23.aspx">公冶长篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_24.aspx">雍也篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_25.aspx">述而篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_26.aspx">泰伯篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_27.aspx">子罕篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_28.aspx">乡党篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_29.aspx">先进篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_30.aspx">颜渊篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_31.aspx">子路篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_32.aspx">宪问篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_33.aspx">卫灵公篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_34.aspx">季氏篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_35.aspx">阳货篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_36.aspx">微子篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_37.aspx">子张篇</a></span>&#13;
               &#13;
              <span><a href="/guwen/bookv_38.aspx">尧曰篇</a></span>&#13;
              &#13;
        </ul>&#13;
        </div>

raw数据

2.content是网页的具体数据，不包含html标记

content数据

3.tagName是html标签

输出只有div

4.attributes，属性。。。。。。。

class = bookcont;

5.children子节点

(
    "{
    nodeContent = "
\n        ";
    nodeName = text;
}",
    "{
    nodeChildArray =     (
                {
            nodeContent = "
\n         
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_19.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5b66\U800c\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5b66\U800c\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_19.aspx\">\U5b66\U800c\U7bc7</a>";
                }
            );
            nodeContent = "\U5b66\U800c\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_19.aspx\">\U5b66\U800c\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_20.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U4e3a\U653f\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U4e3a\U653f\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_20.aspx\">\U4e3a\U653f\U7bc7</a>";
                }
            );
            nodeContent = "\U4e3a\U653f\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_20.aspx\">\U4e3a\U653f\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_21.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U516b\U4f7e\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U516b\U4f7e\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_21.aspx\">\U516b\U4f7e\U7bc7</a>";
                }
            );
            nodeContent = "\U516b\U4f7e\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_21.aspx\">\U516b\U4f7e\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_22.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U91cc\U4ec1\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U91cc\U4ec1\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_22.aspx\">\U91cc\U4ec1\U7bc7</a>";
                }
            );
            nodeContent = "\U91cc\U4ec1\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_22.aspx\">\U91cc\U4ec1\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_23.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U516c\U51b6\U957f\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U516c\U51b6\U957f\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_23.aspx\">\U516c\U51b6\U957f\U7bc7</a>";
                }
            );
            nodeContent = "\U516c\U51b6\U957f\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_23.aspx\">\U516c\U51b6\U957f\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_24.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U96cd\U4e5f\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U96cd\U4e5f\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_24.aspx\">\U96cd\U4e5f\U7bc7</a>";
                }
            );
            nodeContent = "\U96cd\U4e5f\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_24.aspx\">\U96cd\U4e5f\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_25.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U8ff0\U800c\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U8ff0\U800c\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_25.aspx\">\U8ff0\U800c\U7bc7</a>";
                }
            );
            nodeContent = "\U8ff0\U800c\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_25.aspx\">\U8ff0\U800c\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_26.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U6cf0\U4f2f\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U6cf0\U4f2f\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_26.aspx\">\U6cf0\U4f2f\U7bc7</a>";
                }
            );
            nodeContent = "\U6cf0\U4f2f\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_26.aspx\">\U6cf0\U4f2f\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_27.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5b50\U7f55\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5b50\U7f55\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_27.aspx\">\U5b50\U7f55\U7bc7</a>";
                }
            );
            nodeContent = "\U5b50\U7f55\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_27.aspx\">\U5b50\U7f55\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_28.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U4e61\U515a\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U4e61\U515a\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_28.aspx\">\U4e61\U515a\U7bc7</a>";
                }
            );
            nodeContent = "\U4e61\U515a\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_28.aspx\">\U4e61\U515a\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_29.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5148\U8fdb\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5148\U8fdb\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_29.aspx\">\U5148\U8fdb\U7bc7</a>";
                }
            );
            nodeContent = "\U5148\U8fdb\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_29.aspx\">\U5148\U8fdb\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_30.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U989c\U6e0a\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U989c\U6e0a\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_30.aspx\">\U989c\U6e0a\U7bc7</a>";
                }
            );
            nodeContent = "\U989c\U6e0a\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_30.aspx\">\U989c\U6e0a\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_31.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5b50\U8def\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5b50\U8def\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_31.aspx\">\U5b50\U8def\U7bc7</a>";
                }
            );
            nodeContent = "\U5b50\U8def\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_31.aspx\">\U5b50\U8def\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_32.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5baa\U95ee\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5baa\U95ee\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_32.aspx\">\U5baa\U95ee\U7bc7</a>";
                }
            );
            nodeContent = "\U5baa\U95ee\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_32.aspx\">\U5baa\U95ee\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_33.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U536b\U7075\U516c\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U536b\U7075\U516c\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_33.aspx\">\U536b\U7075\U516c\U7bc7</a>";
                }
            );
            nodeContent = "\U536b\U7075\U516c\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_33.aspx\">\U536b\U7075\U516c\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_34.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5b63\U6c0f\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5b63\U6c0f\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_34.aspx\">\U5b63\U6c0f\U7bc7</a>";
                }
            );
            nodeContent = "\U5b63\U6c0f\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_34.aspx\">\U5b63\U6c0f\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_35.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U9633\U8d27\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U9633\U8d27\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_35.aspx\">\U9633\U8d27\U7bc7</a>";
                }
            );
            nodeContent = "\U9633\U8d27\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_35.aspx\">\U9633\U8d27\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_36.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5fae\U5b50\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5fae\U5b50\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_36.aspx\">\U5fae\U5b50\U7bc7</a>";
                }
            );
            nodeContent = "\U5fae\U5b50\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_36.aspx\">\U5fae\U5b50\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_37.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5b50\U5f20\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5b50\U5f20\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_37.aspx\">\U5b50\U5f20\U7bc7</a>";
                }
            );
            nodeContent = "\U5b50\U5f20\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_37.aspx\">\U5b50\U5f20\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n               
\n              ";
            nodeName = text;
        },
                {
            nodeChildArray =             (
                                {
                    nodeAttributeArray =                     (
                                                {
                            attributeName = href;
                            nodeContent = "/guwen/bookv_38.aspx";
                        }
                    );
                    nodeChildArray =                     (
                                                {
                            nodeContent = "\U5c27\U66f0\U7bc7";
                            nodeName = text;
                        }
                    );
                    nodeContent = "\U5c27\U66f0\U7bc7";
                    nodeName = a;
                    raw = "<a href=\"/guwen/bookv_38.aspx\">\U5c27\U66f0\U7bc7</a>";
                }
            );
            nodeContent = "\U5c27\U66f0\U7bc7";
            nodeName = span;
            raw = "<span><a href=\"/guwen/bookv_38.aspx\">\U5c27\U66f0\U7bc7</a></span>";
        },
                {
            nodeContent = "
\n              
\n        ";
            nodeName = text;
        }
    );
    nodeContent = "
\n         
\n              \U5b66\U800c\U7bc7
\n               
\n              \U4e3a\U653f\U7bc7
\n               
\n              \U516b\U4f7e\U7bc7
\n               
\n              \U91cc\U4ec1\U7bc7
\n               
\n              \U516c\U51b6\U957f\U7bc7
\n               
\n              \U96cd\U4e5f\U7bc7
\n               
\n              \U8ff0\U800c\U7bc7
\n               
\n              \U6cf0\U4f2f\U7bc7
\n               
\n              \U5b50\U7f55\U7bc7
\n               
\n              \U4e61\U515a\U7bc7
\n               
\n              \U5148\U8fdb\U7bc7
\n               
\n              \U989c\U6e0a\U7bc7
\n               
\n              \U5b50\U8def\U7bc7
\n               
\n              \U5baa\U95ee\U7bc7
\n               
\n              \U536b\U7075\U516c\U7bc7
\n               
\n              \U5b63\U6c0f\U7bc7
\n               
\n              \U9633\U8d27\U7bc7
\n               
\n              \U5fae\U5b50\U7bc7
\n               
\n              \U5b50\U5f20\U7bc7
\n               
\n              \U5c27\U66f0\U7bc7
\n              
\n        ";
    nodeName = ul;
    raw = "<ul>&#13;\n         &#13;\n              <span><a href=\"/guwen/bookv_19.aspx\">\U5b66\U800c\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_20.aspx\">\U4e3a\U653f\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_21.aspx\">\U516b\U4f7e\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_22.aspx\">\U91cc\U4ec1\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_23.aspx\">\U516c\U51b6\U957f\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_24.aspx\">\U96cd\U4e5f\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_25.aspx\">\U8ff0\U800c\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_26.aspx\">\U6cf0\U4f2f\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_27.aspx\">\U5b50\U7f55\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_28.aspx\">\U4e61\U515a\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_29.aspx\">\U5148\U8fdb\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_30.aspx\">\U989c\U6e0a\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_31.aspx\">\U5b50\U8def\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_32.aspx\">\U5baa\U95ee\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_33.aspx\">\U536b\U7075\U516c\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_34.aspx\">\U5b63\U6c0f\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_35.aspx\">\U9633\U8d27\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_36.aspx\">\U5fae\U5b50\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_37.aspx\">\U5b50\U5f20\U7bc7</a></span>&#13;\n               &#13;\n              <span><a href=\"/guwen/bookv_38.aspx\">\U5c27\U66f0\U7bc7</a></span>&#13;\n              &#13;\n        </ul>";
}",
    "{
    nodeContent = "
\n        ";
    nodeName = text;
}"
)

children

6.firstChild

{
    nodeContent = "

        ";
    nodeName = text;
}

上面属性都是涉及HTML语言的标记，我们一般使用的时content属性，然后处理得到的NSString对象

这样我们就得到并处理为我们想要的数据。TFHppleElement是一个很重要的类，具体使用在这里就不介绍了。

python网络爬虫爬取静态数据详解

目的爬取http://seputu.com/数据并存储csv文件导入库lxml用于解析解析网页HTML等源码，提取数据。一些参考：https://www.cnblogs.com/zhangxinqi/p/9210211.htmlrequests请求网页chardet用于判断网页中的字符编码格式csv用于存储文本使用。re用于正则... 查看详情

爬取动态网页：selenium

...icle/details/53454910概述在爬虫过程中，一般情况下都是直接解析html源码进行分析解析即可。但是，有一种情况是比较特殊的：网页的数据采用异步加载的，比如ajax加载的数据，在我们“查看网页源代码”是查看不到的。采... 查看详情

javajsoup怎样爬取特定网页内的数据

...用它可以将HTML页面作为输入流读进java程序中.3)使用Jsoup解析html字符串通过引入Jsoup工具，直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容... 查看详情

c#爬取网页上的数据

...并且下载下来是很有用的，但在对于所下载下来的HTML的解析能力方面，则显得功能很弱查看详情

py爬虫，爬取codeforces分数(代码片段)

爬取过程：py伪装成浏览器，爬取整个网页的代码用bs解析html代码找到需要的数据提取数据frombs4importBeautifulSoupfromurllibimportrequestimporturllib.request,urllib.error#指定URL,获取网页数据importurllibdefgetData(baseurl):#解析数据headers&# 查看详情

java常用类库以及简介，具体使用细节进行百度（爬虫爬取的数据）

来至于互联网Office文档的Java处理包POI[推荐]ApachePOI是一个开源的Java读写Excel、WORD等微软OLE2组件文档的项目。目前POI已经有了Ruby版本。结构：HSSF－提供读写MicrosoftExcelXL...Java常用工具包Jodd[推荐]Jodd是一个开源的Java工具集... 查看详情

爬虫-01

...少要知道什么叫做正则表达式。HTML:简要的HTML文档结构。推荐http://www.w3school.com.cn/HTTP(超文本传输协议）:推荐图解HTTP,下载地址http://down.51cto.com/data/1979859数据库：需了解SQL&NoSQL的概念。3.爬虫架构架构组成URL管理器：管理待爬... 查看详情

python开发爬虫之beautifulsoup解析网页篇：爬取安居客网站上北京二手房数据

目标：爬取安居客网站上前10页北京二手房的数据，包括二手房源的名称、价格、几室几厅、大小、建造年份、联系人、地址、标签等。网址为：https://beijing.anjuke.com/sale/BeautifulSoup官网：https://www.crummy.com/software/BeautifulSoup/直接上... 查看详情

8简单的多线程爬取网页数据并通过xpath解析存到本地(代码片段)

#Author:toloy#导入队列包importqueue#导入线程包importthreading#导入json处理包importjson#导入xpath处理包fromlxmlimportetree#导入请求处理包importrequestsclassThreadCrawl(threading.Thread):‘‘‘定义爬取网页处理类，从页码队列中取出页面，拼接url，请... 查看详情

python爬虫能做啥

...、挖掘、机器学习等提供重要的数据源。什么是爬虫？（推荐学习：P世界上80%的爬虫是基于Python开发的，学好爬虫技能，可为后续的大数据分析、挖掘、机器学习等提供重要的数据源。什么是爬虫？（推荐学习：Python视频教程... 查看详情

校花网爬取

...地，进而提取自己需要的数据，存放起来使用；（2）从解析过程来说：方式1：浏览器提交请求--->下载网页代码--->解析成页面方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中爬虫要... 查看详情

2023爬虫学习笔记--使用代理爬取数据

...的内容=响应内容.text#print(编码后的内容)3、通过源码解析出本地地址数据解析=etree.HTML(编码后的内容)数据列表=数据解析.xpath('/html/body/p[1]/a[1]/text()')print(数据列表)4、运行结果三、利用代理访问网页，在请求代... 查看详情

【python爬虫实战】爬取豆瓣影评数据

参考技术A爬取豆瓣影评数据步骤：1、获取网页请求2、解析获取的网页3、提速数据4、保存文件查看详情

python爬取基础网页图片

...他数据类型的信息，这些就是网页内容。我们要做的就是解析这些信息，然后选择我们想要的，将它爬取下来按要求写入到本地。2.爬虫基本流程1.获取网页的响应的信息这里有两个常用的方法html=requests.get(url)return 查看详情

使用jsoup抓取和解析网页数据

...一、jsoup是什么，它的作用和优势Jsoup是一款基于Java的HTML解析器，它可以方便地从网页中抓取和解析数据。它的主要作用是帮助开发者处理HTML文档，提取所需的数据或信息。Jsoup的优势主要有以下几点：简单易用：Jsoup提供了类... 查看详情

实例--股票数据定向爬取

...码，查看网页信息是否可以直接爬取3、爬取网页信息4、解析网页，获取页面信息在HTML页面中1) 对于非常有特征的数据，可以直接用正则表达式搜索到2) 信息存在的区域相对固定，则... 查看详情

python怎么解析xml文件

...n自带)、libxml2、lxml、xpath。参考技术A利用beautifulsoup4进行解析查看详情

0scrapy架构介绍1scrapy解析数据2settings相关配置，提高爬取效率3持久化方案4全站爬取cnblogs文章(代码片段)

...crapy架构介绍0.1scrapy的一些命令0.2scrapy项目目录结构1scrapy解析数据解析cnblosg2settings相关配置，提高爬取效率2.1基础的一些2.2增加爬虫的爬取效率3持久化方案4全站爬取cnblogs文章4.1request和response对象传递参数4.2解析下一页并继续... 查看详情