beautifulsoup 解析文件夹 webscraping 中的每个 html 文件 [关闭]

     2023-02-24     204

关键词:

【中文标题】beautifulsoup 解析文件夹 webscraping 中的每个 html 文件 [关闭]【英文标题】:beautifulsoup parse every html files in a folder webscraping [closed] 【发布时间】:2017-10-29 03:45:09 【问题描述】:

我的任务是从目录中读取每个 html 文件。条件是查找每个文件是否包含标签

(1) <strong>OO</strong>  
(2) <strong>QQ</strong>

然后

【问题讨论】:

【参考方案1】:

您的write 函数嵌套在for 循环中,这就是为什么您将多行写入index.txt,只需将write 移出循环并将所有部分文本放入变量@987654325 @像这样:

participants = soup.find(find_participant)
parti_names = ""
for parti in participants.find_next_siblings("p"):
    if parti.find("strong", text=re.compile(r"(Operator)")):
        break
    parti_names += parti.get_text(strip=True)+","
    print parti.get_text(strip=True)

indexFile = open('index.txt', 'a+')
indexFile.write(filename + ', ' + title.get_text(strip=True) + ticker.get_text(strip=True) + ', ' + d_date.get_text(strip=True) + ', ' + parti_names + '\n' )
indexFile.close()

更新:

您可以使用basename 来获取文件名:

from os.path import basename

# you can call it directly with basename
print(basename("C:/Users/.../output/100107-.html"))

输出:

100107-.html

【讨论】:

我还有一个问题,我只想要文件名,但输出给了我路径+文件名。我刚刚更新了代码。

用beautifulsoup 解析xml 文件的html 视图?

】用beautifulsoup解析xml文件的html视图?【英文标题】:parsinganhtmlviewofanxmlfilewithbeautifulsoup?【发布时间】:2022-01-1206:36:10【问题描述】:我正在尝试从只能作为HTML页面访问的XML文件中抓取一些简单数据。importrequestsimportpprintimportpan... 查看详情

beautifulsoup 解析文件夹 webscraping 中的每个 html 文件 [关闭]

】beautifulsoup解析文件夹webscraping中的每个html文件[关闭]【英文标题】:beautifulsoupparseeveryhtmlfilesinafolderwebscraping[closed]【发布时间】:2017-10-2903:45:09【问题描述】:我的任务是从目录中读取每个html文件。条件是查找每个文件是否... 查看详情

解析目录中的 html 文件并使用 BeautifulSoup 删除特定标签

】解析目录中的html文件并使用BeautifulSoup删除特定标签【英文标题】:ParsehtmlfilesinthedirectoryandremovespecifictagswithBeautifulSoup【发布时间】:2021-10-1213:09:39【问题描述】:我在目录和子文件夹中有多个html文件。我想解析所有html文件... 查看详情

如何使用 python/BeautifulSoup 或类似方法将 kml 文件解析为 csv?

】如何使用python/BeautifulSoup或类似方法将kml文件解析为csv?【英文标题】:Howtoparseakmlfiletocsvusingpython/BeautifulSouporsimilar?【发布时间】:2013-09-1923:31:24【问题描述】:我一直在尝试将GoogleEarthKML文件转换为GISshapefile(或其他GIS文件... 查看详情

Python BeautifulSoup XML 解析

】PythonBeautifulSoupXML解析【英文标题】:PythonBeautifulSoupXMLParsing【发布时间】:2011-05-0313:40:57【问题描述】:我编写了一个简单的脚本来使用BeautifulSoup模块解析XML聊天日志。标准的soup.prettify()工作正常,只是聊天日志中有很多绒... 查看详情

BeautifulSoup 和 XML 解析

】BeautifulSoup和XML解析【英文标题】:BeautifulSoupandXMLparsing【发布时间】:2021-12-1601:35:46【问题描述】:我正在努力使用BS。我有一个TEI-XML文件,我想只捕获&lt;p&gt;和&lt;said&gt;标记的内容。所以给定这个输入:<?xmlver... 查看详情

如何处理 Beautifulsoup 递归错误(或解析错误)

】如何处理Beautifulsoup递归错误(或解析错误)【英文标题】:HowtodealwithBeautifulsoupRecursionError(orparseerror)【发布时间】:2019-07-2812:27:47【问题描述】:我有一堆HTML文件,我想用Beautifulsoup来阅读它们。其中一些,我收到了一个错误... 查看详情

beautifulsoup使用总结(代码片段)

一、介绍BeautifulSoup为一个python库,它可以接收一个HTML或XML的字符串或文件,并返回一个BeautifulSoup对象,之后我们可以使用BeautifulSoup提供的众多方法来对文件内容进行解析。二、安装1、使用pip安装pipinstallbeautifulsoup4#安装Beautiful... 查看详情

用beautifulsoup4解析xml,命名空间问题

】用beautifulsoup4解析xml,命名空间问题【英文标题】:xmlparsingwithbeautifulsoup4,namespacesissue【发布时间】:2014-09-1606:02:26【问题描述】:在使用beautifulsoup4(根据需要安装了lxml)以xml(word/document.xml)的形式解析.docx文件内容时,我... 查看详情

解析库之beautifulsoup,pyquery(代码片段)

Beautifulsoup模块BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.你可能在寻找BeautifulSoup3的文档,Beauti... 查看详情

爬虫——beautifulsoup模块获取元素(代码片段)

目录BeautifulSoup一、BeautifulSoup简介二、安装模块三、解析器四、BeautifulSoup的使用五、查找元素1、遍历文档树2、搜索文档树BeautifulSoup一、BeautifulSoup简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过转换器... 查看详情

93解析库之re,beautifulsoup

...块在之前的python进阶中有讲过不再做过多的阐述,本篇为BeautifulSoup库的分析20、collections模块和re模块(正则表达式详解)一、介绍BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯... 查看详情

beautifulsoup基本使用

参考技术ABeautifulSoup官方文档介绍:BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库。使用BeautifulSoup更多方便,避免使用正则表达式容易出错,提高效率。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解... 查看详情

解析库之rebeautifulsouppyquery

BeatifulSoup模块一、介绍BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.你可能在寻找BeautifulSoup3的... 查看详情

解析库之beautifulsoup模块(代码片段)

介绍:BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.   它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.   BeautifulSoup3目前已... 查看详情

解析库之beautifulsoup模块(代码片段)

一介绍BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现文档导航,查找,修改文档的方式,BeautifulSoup会帮你节省数小时甚至数天的工作时间,你可能在寻找 BeautifulSoup3 的文档,Bea... 查看详情

7-13爬虫入门之beautifulsoup对网页爬取内容的解析

通过beautifulsoup对json爬取的文件进行元素审查,获取是否含有p标签#-*-coding:utf-8-*-fromlxmlimporthtmlimportrequestsimportjsonimportreimportscrapyfrombs4importBeautifulSoup#通过beautifulsoup解析文档defbs4analysis(html_doc):soup=Be 查看详情

beautifulsoup模块(代码片段)

一、BeautifulSoup简介BeautifulSoup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.BeautifulSoup会帮你节省数小时甚至数天的工作时间.你可能在寻找BeautifulSoup3的文档,... 查看详情