正文

beautifulsoup 解析文件夹 webscraping 中的每个 html 文件 [关闭]

 2023-02-24  204

关键词：

【中文标题】beautifulsoup 解析文件夹 webscraping 中的每个 html 文件 [关闭]【英文标题】：beautifulsoup parse every html files in a folder webscraping [closed] 【发布时间】：2017-10-29 03:45:09 【问题描述】：

我的任务是从目录中读取每个 html 文件。条件是查找每个文件是否包含标签

(1) <strong>OO</strong>  
(2) <strong>QQ</strong>

然后

【问题讨论】：

【参考方案1】：

您的write 函数嵌套在for 循环中，这就是为什么您将多行写入index.txt，只需将write 移出循环并将所有部分文本放入变量@987654325 @像这样：

participants = soup.find(find_participant)
parti_names = ""
for parti in participants.find_next_siblings("p"):
    if parti.find("strong", text=re.compile(r"(Operator)")):
        break
    parti_names += parti.get_text(strip=True)+","
    print parti.get_text(strip=True)

indexFile = open('index.txt', 'a+')
indexFile.write(filename + ', ' + title.get_text(strip=True) + ticker.get_text(strip=True) + ', ' + d_date.get_text(strip=True) + ', ' + parti_names + '\n' )
indexFile.close()

更新：

您可以使用basename 来获取文件名：

from os.path import basename

# you can call it directly with basename
print(basename("C:/Users/.../output/100107-.html"))

输出：

100107-.html

【讨论】：

我还有一个问题，我只想要文件名，但输出给了我路径+文件名。我刚刚更新了代码。

用beautifulsoup 解析xml 文件的html 视图？

】用beautifulsoup解析xml文件的html视图？【英文标题】：parsinganhtmlviewofanxmlfilewithbeautifulsoup?【发布时间】：2022-01-1206:36:10【问题描述】：我正在尝试从只能作为HTML页面访问的XML文件中抓取一些简单数据。importrequestsimportpprintimportpan... 查看详情

beautifulsoup 解析文件夹 webscraping 中的每个 html 文件 [关闭]

】beautifulsoup解析文件夹webscraping中的每个html文件[关闭]【英文标题】：beautifulsoupparseeveryhtmlfilesinafolderwebscraping[closed]【发布时间】：2017-10-2903:45:09【问题描述】：我的任务是从目录中读取每个html文件。条件是查找每个文件是否... 查看详情

解析目录中的 html 文件并使用 BeautifulSoup 删除特定标签

】解析目录中的html文件并使用BeautifulSoup删除特定标签【英文标题】：ParsehtmlfilesinthedirectoryandremovespecifictagswithBeautifulSoup【发布时间】：2021-10-1213:09:39【问题描述】：我在目录和子文件夹中有多个html文件。我想解析所有html文件... 查看详情

如何使用 python/BeautifulSoup 或类似方法将 kml 文件解析为 csv？

】如何使用python/BeautifulSoup或类似方法将kml文件解析为csv？【英文标题】：Howtoparseakmlfiletocsvusingpython/BeautifulSouporsimilar?【发布时间】：2013-09-1923:31:24【问题描述】：我一直在尝试将GoogleEarthKML文件转换为GISshapefile（或其他GIS文件... 查看详情

Python BeautifulSoup XML 解析

】PythonBeautifulSoupXML解析【英文标题】：PythonBeautifulSoupXMLParsing【发布时间】：2011-05-0313:40:57【问题描述】：我编写了一个简单的脚本来使用BeautifulSoup模块解析XML聊天日志。标准的soup.prettify()工作正常，只是聊天日志中有很多绒... 查看详情

BeautifulSoup 和 XML 解析

】BeautifulSoup和XML解析【英文标题】：BeautifulSoupandXMLparsing【发布时间】：2021-12-1601:35:46【问题描述】：我正在努力使用BS。我有一个TEI-XML文件，我想只捕获<p>和<said>标记的内容。所以给定这个输入：<?xmlver... 查看详情

如何处理 Beautifulsoup 递归错误（或解析错误）

】如何处理Beautifulsoup递归错误（或解析错误）【英文标题】：HowtodealwithBeautifulsoupRecursionError(orparseerror)【发布时间】：2019-07-2812:27:47【问题描述】：我有一堆HTML文件，我想用Beautifulsoup来阅读它们。其中一些，我收到了一个错误... 查看详情

beautifulsoup使用总结(代码片段)

一、介绍BeautifulSoup为一个python库，它可以接收一个HTML或XML的字符串或文件，并返回一个BeautifulSoup对象，之后我们可以使用BeautifulSoup提供的众多方法来对文件内容进行解析。二、安装1、使用pip安装pipinstallbeautifulsoup4#安装Beautiful... 查看详情

用beautifulsoup4解析xml，命名空间问题

】用beautifulsoup4解析xml，命名空间问题【英文标题】：xmlparsingwithbeautifulsoup4,namespacesissue【发布时间】：2014-09-1606:02:26【问题描述】：在使用beautifulsoup4（根据需要安装了lxml）以xml（word/document.xml）的形式解析.docx文件内容时，我... 查看详情

解析库之beautifulsoup，pyquery(代码片段)

Beautifulsoup模块BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.你可能在寻找BeautifulSoup3的文档,Beauti... 查看详情

爬虫——beautifulsoup模块获取元素(代码片段)

目录BeautifulSoup一、BeautifulSoup简介二、安装模块三、解析器四、BeautifulSoup的使用五、查找元素1、遍历文档树2、搜索文档树BeautifulSoup一、BeautifulSoup简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过转换器... 查看详情

93解析库之re，beautifulsoup

...块在之前的python进阶中有讲过不再做过多的阐述，本篇为BeautifulSoup库的分析20、collections模块和re模块（正则表达式详解）一、介绍BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯... 查看详情

beautifulsoup基本使用

参考技术ABeautifulSoup官方文档介绍：BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。使用BeautifulSoup更多方便，避免使用正则表达式容易出错，提高效率。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解... 查看详情

解析库之rebeautifulsouppyquery

BeatifulSoup模块一、介绍BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.你可能在寻找BeautifulSoup3的... 查看详情

解析库之beautifulsoup模块(代码片段)

介绍:BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库. 它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间. BeautifulSoup3目前已... 查看详情

解析库之beautifulsoup模块(代码片段)

一介绍BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现文档导航,查找,修改文档的方式，BeautifulSoup会帮你节省数小时甚至数天的工作时间，你可能在寻找 BeautifulSoup3 的文档,Bea... 查看详情

7-13爬虫入门之beautifulsoup对网页爬取内容的解析

通过beautifulsoup对json爬取的文件进行元素审查，获取是否含有p标签#-*-coding:utf-8-*-fromlxmlimporthtmlimportrequestsimportjsonimportreimportscrapyfrombs4importBeautifulSoup#通过beautifulsoup解析文档defbs4analysis(html_doc):soup=Be 查看详情

beautifulsoup模块(代码片段)

一、BeautifulSoup简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.你可能在寻找BeautifulSoup3的文档,... 查看详情