关键词:
【中文标题】如何使用 CSS/Selenium 从网页获取链接【英文标题】:How to use CSS/Selenium to get links from webpage 【发布时间】:2021-03-13 01:48:36 【问题描述】:我想要下一页上每个块的链接。
BeautifulSoup 似乎无法正常工作,因为页面似乎在 javascript 中呈现,但它应该使用 CSS 或 Selenium 工作?
我将如何使用其中任何一个从页面中提取 html 链接
from bs4 import BeautifulSoup
import requests
lists=[]
baseurl='https://meetinglibrary.asco.org/'
for x in range (1,5):
url=f'https://meetinglibrary.asco.org/results?meetingView=2020%20ASCO%20Virtual%20Scientific%20Program&page=x'
r=requests.get(url)
soup=BeautifulSoup(r.content,'html.parser')
productlist=soup.find_all('a',class_='ng-star-inserted')
for item in productlist:
print(item)
【问题讨论】:
【参考方案1】:这很简单:您使用 Selenium 访问该站点,然后将源代码传递给 bs4:
from selenium import webdriver
from bs4 import BeautifulSoup
import time
driver = webdriver.Firefox()
for x in range (1,5):
driver.get('https://meetinglibrary.asco.org/results?meetingView=2020%20ASCO%20Virtual%20Scientific%20Program&page=x')
time.sleep(10)
page_source = driver.page_source
productlist=soup.find_all('a',class_='ng-star-inserted')
driver.close()
for item in productlist:
print(item)
请注意,您可能需要更改一些细节,使用webdriver.Firefox("insert path here")
时需要插入可执行路径
还要确保你已经安装了 selenium,你可以使用
pip install selenium
如果您需要在页面上滚动以加载内容,您可以使用:
for i in range(60):
driver.execute_script("arguments[0].scrollBy(0, 500)")
driver.implicitly_wait(2)
当然,您可以根据网站的大小调整“60”。 参考: The Docs of Selenium This Page basically doing what you want to do
【讨论】:
添加了一行定义什么是汤,但谢谢你做得很好! 哦是的忘记了:D如何使用 C# 从网页中获取数据
】如何使用C#从网页中获取数据【英文标题】:HowtogetdatafromwebpageusingC#【发布时间】:2016-01-2506:17:16【问题描述】:大家好,我正在尝试从网页获取一些表格数据。而不是从网络上获取所有数据,我需要表格中的特定数据,例如... 查看详情
如何使用 puppeteer 从网站获取所有链接
】如何使用puppeteer从网站获取所有链接【英文标题】:Howtogetalllinksfromawebsitewithpuppeteer【发布时间】:2021-08-1905:05:12【问题描述】:好吧,我想要一种方法来使用puppeteer和for循环来获取网站上的所有链接并将它们添加到数组中,... 查看详情
如何使用javascript从网页中获取点击或选择的文本? [复制]
】如何使用javascript从网页中获取点击或选择的文本?[复制]【英文标题】:howtogettheclickedorselectedtextfromthewebpagesusingjavascript?[duplicate]【发布时间】:2020-11-0321:38:00【问题描述】:如何使用javascript从网页中获取点击或选择的文本?... 查看详情
如何使用 javascript 从网页中获取所有图像 url?
】如何使用javascript从网页中获取所有图像url?【英文标题】:Howtogetallimageurlsfromawebpageusingjavascript?【发布时间】:2021-04-2609:59:55【问题描述】:有几种方法可以使用javascript加载图像srcurl,例如使用document.images或选择所有img标记... 查看详情
如何从数组中的 textarea HTML 标记中获取数据,然后循环遍历它?
】如何从数组中的textareaHTML标记中获取数据,然后循环遍历它?【英文标题】:HowtogetdatafromtextareaHTMLtaginanarrayandthenloopthroughit?【发布时间】:2020-03-2708:23:15【问题描述】:我正在创建一个网页,该网页将从用户那里收集链接,... 查看详情
如何在html中获取网页链接的小缩略图
】如何在html中获取网页链接的小缩略图【英文标题】:Howtogetasmallthumbnailofawebpagelinkinsidehtml【发布时间】:2020-07-1319:18:11【问题描述】:我打算在我的Gatsby网页上显示其他人的博客文章列表作为链接。我不想在html中添加图像和... 查看详情
如何使用 Python 从 HTML 获取 href 链接?
】如何使用Python从HTML获取href链接?【英文标题】:HowcanIgethreflinksfromHTMLusingPython?【发布时间】:2011-03-0518:28:33【问题描述】:importurllib2website="WEBSITE"openwebsite=urllib2.urlopen(website)html=getwebsite.read()printhtml到目前为止一切顺利。但我... 查看详情
如何从 url 中获取图片
】如何从url中获取图片【英文标题】:Howtobringimagefromurl【发布时间】:2014-08-0408:29:47【问题描述】:当您在Facebook上分享链接时,它会显示来自该网页的图片。如何将该功能添加到我拥有的论坛?我使用django(但我不确定这是否... 查看详情
如何使用python从excel中获取数据粘贴到网页,然后再获取网页内容
参考技术A网页的内容复制到Excel里面去的方法如下:打开网页,定位到需要复制内容的页面,键盘Ctrl+A全选,Ctrl+C复制当前页面。启动Excel软件,Ctrl+V粘贴到Excel的空白工作表中,这样,网页的内容就会被复制到Excel中本回答被提... 查看详情
如何使用 Python 从网页中提取表格的内容?
】如何使用Python从网页中提取表格的内容?【英文标题】:HowtoextractcontentsofatablefromwebpageusingPython?【发布时间】:2020-11-2216:56:22【问题描述】:我在从网页中提取kmz和zip文件时需要帮助。以下代码能够提取表格,但不能提取表格... 查看详情
dtrace:如何从文件中获取符号链接目标
】dtrace:如何从文件中获取符号链接目标【英文标题】:dtrace:Howtogetsymlinktargetfromfile【发布时间】:2013-11-1816:33:44【问题描述】:我正在使用dtrace记录所有被删除的文件。是否有可能找出符号链接目标是什么(如果它是符号链接... 查看详情
如何从使用实体框架的外键链接的多个表中获取所有数据?
】如何从使用实体框架的外键链接的多个表中获取所有数据?【英文标题】:HowtogetalldatafrommultipletableslinkedbyforeignkeyswithEntityFramework?【发布时间】:2019-09-0121:05:05【问题描述】:我是EntityFramework的新手,无法从以下数据库中获取... 查看详情
如何从另一个网页获取值并将其存储为变量?
】如何从另一个网页获取值并将其存储为变量?【英文标题】:HowcanIgetavaluefromanotherwebpageandstoreitasavariable?【发布时间】:2015-01-3101:11:18【问题描述】:我正在使用石墨来获取统计数据,并希望为变量呈现一个justgage仪表。Graphite... 查看详情
如何从提供的链接中获取数据?
】如何从提供的链接中获取数据?【英文标题】:Howtofetchdatafromtheprovidedlink?【发布时间】:2021-09-2307:02:09【问题描述】:其实我是从api得到这个链接的,这是我想在颤振应用程序中显示的图像。状态码=200,因此成功提取JSON格式... 查看详情
如何使用node js,reactjs,express从实际网页中的mongodb中获取数据
】如何使用nodejs,reactjs,express从实际网页中的mongodb中获取数据【英文标题】:Howtogetdataoutofmongodbinactualwebpageusingnodejs,reactjs,express【发布时间】:2017-10-0101:35:01【问题描述】:这是我在mongo终端上运行查询后得到的数据db.contacts.f... 查看详情
如何从 HAR 文件中获取总网页响应时间?
...在这种情况下为38.79s。有谁知道如何获得这个?我将使用Selenium以及Firebug和NetExport来导出HAR文件,但现在我正在尝 查看详情
如何从下载链接获取二进制数据
】如何从下载链接获取二进制数据【英文标题】:Howtogetthebinarydatafromadownloadlink【发布时间】:2011-02-0707:21:11【问题描述】:我需要获取下载链接的二进制数据。当我在浏览器中运行此链接时,它总是会启动下载管理器。相反,... 查看详情
如何从 Excel 中获取单元格超链接地址?
】如何从Excel中获取单元格超链接地址?【英文标题】:HowgetcellhyperlinkaddressfromExcel?【发布时间】:2013-04-2413:01:12【问题描述】:要从单元格中读取文本,我使用这个:QAxObject*e=newQAxObject("Excel.Application");QAxObject*wbooks=e->querySubOb... 查看详情