如何使用 CSS/Selenium 从网页获取链接

     2023-03-06     57

关键词:

【中文标题】如何使用 CSS/Selenium 从网页获取链接【英文标题】:How to use CSS/Selenium to get links from webpage 【发布时间】:2021-03-13 01:48:36 【问题描述】:

我想要下一页上每个块的链接。

BeautifulSoup 似乎无法正常工作,因为页面似乎在 javascript 中呈现,但它应该使用 CSS 或 Selenium 工作?

我将如何使用其中任何一个从页面中提取 html 链接

from bs4 import BeautifulSoup
import requests
lists=[]
baseurl='https://meetinglibrary.asco.org/'
for x in range (1,5):
    url=f'https://meetinglibrary.asco.org/results?meetingView=2020%20ASCO%20Virtual%20Scientific%20Program&page=x'
    r=requests.get(url)
    soup=BeautifulSoup(r.content,'html.parser')
    productlist=soup.find_all('a',class_='ng-star-inserted')
    for item in productlist:
        print(item)

【问题讨论】:

【参考方案1】:

这很简单:您使用 Selenium 访问该站点,然后将源代码传递给 bs4:

from selenium import webdriver
from bs4 import BeautifulSoup
import time
driver = webdriver.Firefox()
for x in range (1,5):
  driver.get('https://meetinglibrary.asco.org/results?meetingView=2020%20ASCO%20Virtual%20Scientific%20Program&page=x')
  time.sleep(10)
  page_source = driver.page_source
  productlist=soup.find_all('a',class_='ng-star-inserted')
  driver.close()
  for item in productlist:
     print(item)

请注意,您可能需要更改一些细节,使用webdriver.Firefox("insert path here")时需要插入可执行路径 还要确保你已经安装了 selenium,你可以使用

pip install selenium

如果您需要在页面上滚动以加载内容,您可以使用:

for i in range(60):
driver.execute_script("arguments[0].scrollBy(0, 500)")
driver.implicitly_wait(2)

当然,您可以根据网站的大小调整“60”。 参考: The Docs of Selenium This Page basically doing what you want to do

【讨论】:

添加了一行定义什么是汤,但谢谢你做得很好! 哦是的忘记了:D

如何使用 C# 从网页中获取数据

】如何使用C#从网页中获取数据【英文标题】:HowtogetdatafromwebpageusingC#【发布时间】:2016-01-2506:17:16【问题描述】:大家好,我正在尝试从网页获取一些表格数据。而不是从网络上获取所有数据,我需要表格中的特定数据,例如... 查看详情

如何使用 puppeteer 从网站获取所有链接

】如何使用puppeteer从网站获取所有链接【英文标题】:Howtogetalllinksfromawebsitewithpuppeteer【发布时间】:2021-08-1905:05:12【问题描述】:好吧,我想要一种方法来使用puppeteer和for循环来获取网站上的所有链接并将它们添加到数组中,... 查看详情

如何使用javascript从网页中获取点击或选择的文本? [复制]

】如何使用javascript从网页中获取点击或选择的文本?[复制]【英文标题】:howtogettheclickedorselectedtextfromthewebpagesusingjavascript?[duplicate]【发布时间】:2020-11-0321:38:00【问题描述】:如何使用javascript从网页中获取点击或选择的文本?... 查看详情

如何使用 javascript 从网页中获取所有图像 url?

】如何使用javascript从网页中获取所有图像url?【英文标题】:Howtogetallimageurlsfromawebpageusingjavascript?【发布时间】:2021-04-2609:59:55【问题描述】:有几种方法可以使用javascript加载图像srcurl,例如使用document.images或选择所有img标记... 查看详情

如何从数组中的 textarea HTML 标记中获取数据,然后循环遍历它?

】如何从数组中的textareaHTML标记中获取数据,然后循环遍历它?【英文标题】:HowtogetdatafromtextareaHTMLtaginanarrayandthenloopthroughit?【发布时间】:2020-03-2708:23:15【问题描述】:我正在创建一个网页,该网页将从用户那里收集链接,... 查看详情

如何在html中获取网页链接的小缩略图

】如何在html中获取网页链接的小缩略图【英文标题】:Howtogetasmallthumbnailofawebpagelinkinsidehtml【发布时间】:2020-07-1319:18:11【问题描述】:我打算在我的Gatsby网页上显示其他人的博客文章列表作为链接。我不想在html中添加图像和... 查看详情

如何使用 Python 从 HTML 获取 href 链接?

】如何使用Python从HTML获取href链接?【英文标题】:HowcanIgethreflinksfromHTMLusingPython?【发布时间】:2011-03-0518:28:33【问题描述】:importurllib2website="WEBSITE"openwebsite=urllib2.urlopen(website)html=getwebsite.read()printhtml到目前为止一切顺利。但我... 查看详情

如何从 url 中获取图片

】如何从url中获取图片【英文标题】:Howtobringimagefromurl【发布时间】:2014-08-0408:29:47【问题描述】:当您在Facebook上分享链接时,它会显示来自该网页的图片。如何将该功能添加到我拥有的论坛?我使用django(但我不确定这是否... 查看详情

如何使用python从excel中获取数据粘贴到网页,然后再获取网页内容

参考技术A网页的内容复制到Excel里面去的方法如下:打开网页,定位到需要复制内容的页面,键盘Ctrl+A全选,Ctrl+C复制当前页面。启动Excel软件,Ctrl+V粘贴到Excel的空白工作表中,这样,网页的内容就会被复制到Excel中本回答被提... 查看详情

如何使用 Python 从网页中提取表格的内容?

】如何使用Python从网页中提取表格的内容?【英文标题】:HowtoextractcontentsofatablefromwebpageusingPython?【发布时间】:2020-11-2216:56:22【问题描述】:我在从网页中提取kmz和zip文件时需要帮助。以下代码能够提取表格,但不能提取表格... 查看详情

dtrace:如何从文件中获取符号链接目标

】dtrace:如何从文件中获取符号链接目标【英文标题】:dtrace:Howtogetsymlinktargetfromfile【发布时间】:2013-11-1816:33:44【问题描述】:我正在使用dtrace记录所有被删除的文件。是否有可能找出符号链接目标是什么(如果它是符号链接... 查看详情

如何从使用实体框架的外键链接的多个表中获取所有数据?

】如何从使用实体框架的外键链接的多个表中获取所有数据?【英文标题】:HowtogetalldatafrommultipletableslinkedbyforeignkeyswithEntityFramework?【发布时间】:2019-09-0121:05:05【问题描述】:我是EntityFramework的新手,无法从以下数据库中获取... 查看详情

如何从另一个网页获取值并将其存储为变量?

】如何从另一个网页获取值并将其存储为变量?【英文标题】:HowcanIgetavaluefromanotherwebpageandstoreitasavariable?【发布时间】:2015-01-3101:11:18【问题描述】:我正在使用石墨来获取统计数据,并希望为变量呈现一个justgage仪表。Graphite... 查看详情

如何从提供的链接中获取数据?

】如何从提供的链接中获取数据?【英文标题】:Howtofetchdatafromtheprovidedlink?【发布时间】:2021-09-2307:02:09【问题描述】:其实我是从api得到这个链接的,这是我想在颤振应用程序中显示的图像。状态码=200,因此成功提取JSON格式... 查看详情

如何使用node js,reactjs,express从实际网页中的mongodb中获取数据

】如何使用nodejs,reactjs,express从实际网页中的mongodb中获取数据【英文标题】:Howtogetdataoutofmongodbinactualwebpageusingnodejs,reactjs,express【发布时间】:2017-10-0101:35:01【问题描述】:这是我在mongo终端上运行查询后得到的数据db.contacts.f... 查看详情

如何从 HAR 文件中获取总网页响应时间?

...在这种情况下为38.79s。有谁知道如何获得这个?我将使用Selenium以及Firebug和NetExport来导出HAR文件,但现在我正在尝 查看详情

如何从下载链接获取二进制数据

】如何从下载链接获取二进制数据【英文标题】:Howtogetthebinarydatafromadownloadlink【发布时间】:2011-02-0707:21:11【问题描述】:我需要获取下载链接的二进制数据。当我在浏览器中运行此链接时,它总是会启动下载管理器。相反,... 查看详情

如何从 Excel 中获取单元格超链接地址?

】如何从Excel中获取单元格超链接地址?【英文标题】:HowgetcellhyperlinkaddressfromExcel?【发布时间】:2013-04-2413:01:12【问题描述】:要从单元格中读取文本,我使用这个:QAxObject*e=newQAxObject("Excel.Application");QAxObject*wbooks=e->querySubOb... 查看详情