“缺失”/隐藏的 HTML 代码阻碍了 Webscraper 开发

     2023-02-23     67

关键词:

【中文标题】“缺失”/隐藏的 HTML 代码阻碍了 Webscraper 开发【英文标题】:"Missing"/Hidden HTML Code Stalling Webscraper Development 【发布时间】:2022-01-23 07:15:12 【问题描述】:

我是一名新手程序员,试图创建一个网络抓取程序,最终目标是加快 NASA EarthData 程序的 .ict 和 .csv 文件之间的转换速度。我计划使用 BeautifulSoup Python 库从网页中收集数据,然后将其转换为表格,然后将其转换为 .csv 文件。我计划转换的第一个链接是: https://asdc.larc.nasa.gov/data/AJAX/O3_1/2018/02/28/AJAX-O3_ALPHA_20180228_R1_F220.ict

在打开 Chrome 的 DevTools 以查找列后面的 HTML 代码时,我惊讶地发现缺少代码: Lack of HTML Data

有人可以帮我理解通过.ict文件解析然后获取这些数据转换成表格的方式吗?

理想情况下,我打算有 7 列('Int_Start'、'Int_End'、'TIME'、'G_Lat'、'G_Lon'、'G_Alt'、'O3')。 在每一列下,我计划将图像中看到的七列中的所有值分配给它们各自的列,然后我将它们导出到一个 .csv 文件。

该网站位于 NASA EarthData 身份验证墙后面,我已使用以下代码登录:

link = 'https://urs.earthdata.nasa.gov/login'

with requests.Session() as s:
    s.headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'
    r = s.get(url)
    soup = BeautifulSoup(r.text,"lxml")
    payload = i['name']:i.get('value','') for i in soup.select('input[name]')
    payload['username'] = 'username'
    payload['password'] = 'password'
# For the program to work, each user will need to input their username and password in the lines above.
    res = s.post(link,data=payload)
    res = s.get(url)
    print(res.text)

我在其中插入我的个人信息作为有效负载用户名和密码。对于其他库使用或如何访问数据的 HTML 的任何建议将不胜感激。谢谢。

【问题讨论】:

【参考方案1】:

我可以通过添加代码来解决问题:

html_data = res.text
soup = BeautifulSoup(html_data, 'lxml')
print(soup.prettify())

在下一个单元格中。共有三个标签:<HTML><body><p>

【讨论】:

“线性渐变”阻碍了 QML 中的所有底层项目

...使用Client-sideDecoration,并为标题栏的背景渐变添加了以下代码:Pageanchors.fill:parentheader:ToolBarLinearGradientanch 查看详情

是什么阻碍了代码的重用?问题是否应该只解决一次即可?

原文链接:https://www.zhihu.com/question/21011591作者:悟网不欢链接:https://www.zhihu.com/question/21011591/answer/18268958来源:知乎著作权归作者所有,转载请联系作者获得授权。作为曾经对复用问题非常关心的前软件行业从业人员,把知乎... 查看详情

如何隐藏 HTML 页面的源代码

】如何隐藏HTML页面的源代码【英文标题】:HowtohidethesourcecodeofaHTMLpage【发布时间】:2014-10-0309:47:15【问题描述】:我创建了一个HTML页面,现在想隐藏源代码并对其进行加密。我该怎么做?【问题讨论】:其实有一个网站有这样... 查看详情

cssmac浏览器滚动条自动隐藏问题

大部分情况下,mac中使用谷歌时自动隐藏滚动条还是很友善的,但是某些时刻,又显得有些不近人情。比如:我想在不提示用户这里是可以滚动的情况下还让用户知道这里有别的内容可以通过滚动来查看,这个时候mac的隐藏滚动... 查看详情

HTML中按钮的隐藏属性

】HTML中按钮的隐藏属性【英文标题】:HiddenpropertyofabuttoninHTML【发布时间】:2012-07-0700:28:30【问题描述】:我试图在单击一次按钮时显示三个按钮。在单击按钮之前,所有三个按钮都被隐藏。我设置了隐藏属性,并且我还在单击... 查看详情

位图3:缺失数字(代码片段)

从0,1,2,...,n这n+1个数中选择n个数,找出这n个数中缺失的那个数,要求O(n)尽可能小。 1. 位运算求解题中的意思就是从数字[0,n]之间的n+1个数字少了一个,而其他的数字都存在。如果我们把这个数组添加从0~n的n&#... 查看详情

automake:编译器选项的顺序阻碍了 make

】automake:编译器选项的顺序阻碍了make【英文标题】:automake:theorderingofcompileroptionshindersmake【发布时间】:2013-09-1619:54:06【问题描述】:我是automake工具的新手。在“src/Makefile.am”中,我使用“AM_LDFLAGS=-L...-l...”。然后,我运行... 查看详情

HTML - Img alt 属性隐藏图像

...的“alt”属性来隐藏图片,这样它就不会出现并且没有“缺失图片”图标。例如<imgsrc="https://www. 查看详情

谷歌如何知道我的网页链接,因为我想创建一个多语言的网站,但seo阻碍了我的方式(代码片段)

我擅长英语,请原谅我并试着理解我**我尝试使用数据库的多语言**(mysqli)**但是我遇到了SEO问题**我在这样的数据库中创建了一个表https://imgbbb.com/image/RgT9r我已经编写了类来自动选择语言并更改语言等我的问题是Google将使用哪... 查看详情

什么阻碍了人工智能在制造业的应用?

什么阻碍了人工智能在制造业的应用?What’sholdingbackadoptionofAIinmanufacturing?虽然人工智能在制造业有许多吸引人的使用案例,但这种改变游戏规则的技术仍处于被采用之旅的开始。          ... 查看详情

ora-00922:选项缺失或无效(代码片段)

...伴在安装Oracle数据库的时候会出现如下问题:ORA-00922:选项缺失或无效问题原因这个问题是你在设置口令的时候,没有按照要求输入规范的口令,比如说不能输入.符号解决办法我干脆点卸载了,重新安装了一遍...然后密码设置规范点. 查看详情

程序员学会深度思考系列1:阻碍深度思考的9个思维定式

...,越是追求深度思考本质是引起问题或现象发生的、隐藏于背后的真正原因。本质的反义词是表面,也可以说是不重要的细枝末节。不囿于表面现象及细枝末节,发掘事物背后隐藏的模型及动力机制。“什么事情会引... 查看详情

QMenu mousePressEvent 阻碍了 QAction 切换

】QMenumousePressEvent阻碍了QAction切换【英文标题】:QActiontogglingishinderbyQMenumousePressEvent【发布时间】:2019-04-0301:00:23【问题描述】:我有一个嵌套的菜单项,我试图在其中使所有项都可以检查。最初,切换不适用于主项目(设置为... 查看详情

缺失值处理——寻找缺失值

...赛,真是应了那句俗语‘一窍不得,少挣几百’。在寻找缺失值的时候看到了队友写的代码,感触颇多,想记录下来。缺失值处理一直是影响模型效果的重要因素,听过好多前辈说过好的模型不如好的数据。这次比赛是时间序列... 查看详情

html隐藏的领域(代码片段)

查看详情

html隐藏的预告(代码片段)

查看详情

html隐藏的预告(代码片段)

查看详情

显示隐藏的html代码的按钮?

】显示隐藏的html代码的按钮?【英文标题】:Buttontodisplayhtmlcodethatishidden?【发布时间】:2019-07-1512:59:00【问题描述】:我想知道一旦用户单击html/jsp网站上的按钮,是否有可能在同一页面上出现某些内容?所以基本上一些文本是... 查看详情