正文

使用 Selenium 从 Twitter 抓取关注者

 2023-03-28  111

关键词：

【中文标题】使用 Selenium 从 Twitter 抓取关注者【英文标题】：Scraping followers from Twitter using Selenium 【发布时间】：2022-01-16 10:54:56 【问题描述】：

我是 Python 新手，一直在尝试编写一个可以从 Twitter 抓取数据的应用程序。我尝试在堆栈和互联网上搜索所有类似的可能解决方案，但失败了。

我想抓取所有这些用户名： See here

这是我的代码：

driver.get("https://twitter.com/twitterusername/followers")
sleep(10)

usernames = driver.find_elements_by_class_name("css-901oao.css-16my406.r-poiln3.rbcqeeo.r-qvutc0")
for username in usernames:
    print(username.get_attribute("href"))

我得到的结果：

None
None
None
None
None
None
None

... 继续

感谢您的帮助。

【问题讨论】：

为什么是巨大的sleep(10)？我只是在测试它。我稍后会改变它。你能帮我么？ :( 使用这种类不是一个好习惯，因为它们被混淆了并且会改变。只需使用父类并接触到下面的孩子。

document.querySelectorAll('div[aria-label="Timeline: Followers"] a[role="link"]').forEach(a =&gt; console.log(a['href']))

我不明白这个...你能用我的代码为我提供修复吗？我正在使用 Python。我认为上面的代码是在 Java/JavaScript 中的。 【参考方案1】：

所以，使用 BeautifulSoup 是不可能的。我们只能使用 selenium 来处理这个问题。

for a in driver.find_elements_by_xpath('//div[@aria-label="Timeline: Followers"]//a[@role="link"]'):
    url = a.get_property('href')
    if 'search' in url:
        return 
    print(url.replace("https://twitter.com/", "@")

【讨论】：

感谢您的努力，但我打算在 Selenium 中执行此操作。 :( 使用像 BeautifulSoup 这样的解析器有什么问题？你不能安装额外的灯包？我正在使用 Selenium 并且我的大部分功能都是在其中完成的...... :( 很抱歉，我不是故意的。我非常感谢您的时间和精力。 .. 只是我更喜欢 Selenium。不用担心，我更新了我的答案并且只使用了 selenium :) 它有效。有一个问题......它还显示了其他链接。像这样：twitter.com/search?q=%23Whexcosystem&src=hashtag_click

使用 Selenium 返回空 DataFrame 从网站抓取表格

】使用Selenium返回空DataFrame从网站抓取表格【英文标题】：ScrappingTablefromWebsitewithSeleniumReturningEmptyDataFrame【发布时间】：2022-01-2318:52:47【问题描述】：我刚开始学习网络报废并尝试从https://www.ishares.com/us/products/268752/ishares-global-rei... 查看详情

使用 BS4 或 Selenium 从 finishline.com 抓取网页

】使用BS4或Selenium从finishline.com抓取网页【英文标题】：Webscrapingfromfinishline.comusingBS4orSelenium【发布时间】：2019-09-0306:03:22【问题描述】：我正在尝试使用Selenium或Beautifulsoup4从https://www.finishline.com抓取数据。到目前为止，我一直没... 查看详情

如何使用 twint 库为整个国家/地区抓取 twitter

】如何使用twint库为整个国家/地区抓取twitter【英文标题】：howtoscrapetwitterforawholecountryusingtwintlibrary【发布时间】：2021-06-2800:48:06【问题描述】：您好，我想问一个关于使用Twint库从Twitter上抓取推文的问题基本上，要从特定位置... 查看详情

使用Java从网页中抓取数据？

...2-1619:51:51【问题描述】：我正在为我的一个班级创建一个twitter机器人来练习使用队列并构建我的简历。我希望机器人从paper.li时事通讯中抓取Twitter句柄，然后向用户发送推文。这是一个示例网页。http://paper.li/profkane/1335985326我的... 查看详情

使用 selenium 抓取需要身份验证的网页

】使用selenium抓取需要身份验证的网页【英文标题】：Scrapywithseleniumforawebpagerequiringauthentication【发布时间】：2015-04-0919:13:26【问题描述】：我正在尝试从具有大量AJAX调用和javascript执行的页面中抓取数据以呈现网页。所以我正在... 查看详情

在 python 上使用 selenium 或 beautifulsoup 从带有链接的页面中抓取数据，没有类，没有 id

】在python上使用selenium或beautifulsoup从带有链接的页面中抓取数据，没有类，没有id【英文标题】：Scrapingdatafromapagewithlinksusingseleniumorbeautifulsouponpython,noclass,noid【发布时间】：2021-01-0114:15:12【问题描述】：我想知道如何抓取这个网... 查看详情

Selenium：从 Coincodex 抓取历史数据并转换为 Pandas 数据框

】Selenium：从Coincodex抓取历史数据并转换为Pandas数据框【英文标题】：Selenium:Web-ScrapingHistoricalDatafromCoincodexandtransformintoaPandasDataframe【发布时间】：2022-01-0415:10:12【问题描述】：在尝试使用Selenium从https://coincodex.com/crypto/bitcoin/histo... 查看详情

用于网页抓取的 Selenium 与 BeautifulSoup

】用于网页抓取的Selenium与BeautifulSoup【英文标题】：SeleniumversusBeautifulSoupforwebscraping【发布时间】：2013-06-3010:27:59【问题描述】：我正在使用Python从网站上抓取内容。首先，我在Python上使用了BeautifulSoup和Mechanize，但我看到该网站... 查看详情

如何使用 Python 和 Selenium 进行分页抓取页面

】如何使用Python和Selenium进行分页抓取页面【英文标题】：HowtoScrapepagewithpaginationwithPython&Selenium【发布时间】：2018-06-0101:20:04【问题描述】：我一直试图从网站上删除“价格历史”标签下的表格http://merolagani.com/CompanyDetail.aspx?s... 查看详情

如何使用 selenium python 在悬停的 highcharts 上抓取值？

】如何使用seleniumpython在悬停的highcharts上抓取值？【英文标题】：Howtoscrapevaluesonhoveringhighchartsusingseleniumpython?【发布时间】：2021-08-0113:28:00【问题描述】：我正在尝试使用Python和Selenium从https://www.similarweb.com/website/zalando.de/#overview... 查看详情

在支持 POST 的同时在不使用 Selenium 的情况下渲染 JSON/Javascript 后从网页中抓取 HTML

】在支持POST的同时在不使用Selenium的情况下渲染JSON/Javascript后从网页中抓取HTML【英文标题】：ScrapetheHTMLfromawebpageafterrenderingtheJSON/JavascriptwithoutSeleniumwhilesupportingPOSTing【发布时间】：2016-09-0404:22:14【问题描述】：我正在尝试使用... 查看详情

使用 rvest 在 Twitter 中抓取用户视频

】使用rvest在Twitter中抓取用户视频【英文标题】：ScrapingusersvideoinTwitterwithrvest【发布时间】：2018-10-2513:36:27【问题描述】：我正在使用rvest抓取网络中的一些网络静态元素。但是，我无法抓取动态内容。比如下面videopost中如何抓... 查看详情

我没有得到所有的结果。使用 Selenium 和 Python 进行网页抓取

】我没有得到所有的结果。使用Selenium和Python进行网页抓取【英文标题】：I\'mnotgettingallresults.WebscrapingwithSeleniumandPython【发布时间】：2022-01-2118:31:44【问题描述】：我是使用python和selenium进行网络抓取的新手。我的脚本有一个问... 查看详情

使用 DataDome 的网站在使用 Selenium 和 Python 抓取时被阻止验证码

】使用DataDome的网站在使用Selenium和Python抓取时被阻止验证码【英文标题】：WebsiteusingDataDomegetscaptchablockedwhilescrapingusingSeleniumandPython【发布时间】：2020-09-2317:00:40【问题描述】：我实际上是在尝试从不同的网站上抓取一些汽车数... 查看详情

使用 Selenium 和 Python 进行用户输入的网页抓取动态网站

】使用Selenium和Python进行用户输入的网页抓取动态网站【英文标题】：Web-scrapingdynamicwebsitewithuserinputusingSeleniumandPython【发布时间】：2022-01-2403:19:44【问题描述】：作为游泳者，我正在尝试从用户输入姓名或其他可选字段后可以访... 查看详情

使用 Selenium Python 将文件上传到 Twitter

】使用SeleniumPython将文件上传到Twitter【英文标题】：UploadfiletoTwitterwithSeleniumPython【发布时间】：2021-01-0922:00:38【问题描述】：我正在尝试制作一个twitter机器人，并且我正在使用Selenium和Python。我已经尝试过这个页面的方法：Uploa... 查看详情

使用 selenium 进行网络抓取返回空列表

】使用selenium进行网络抓取返回空列表【英文标题】：webscrapingwithseleniumreturnsemptylist【发布时间】：2022-01-1222:07:36【问题描述】：我以前做过一些网页抓取，但我不知道javascript。我想从https://www.ces.tech/Show-Floor/Exhibitor-Directory.aspx... 查看详情

在 Python 中使用 BS4、Selenium 抓取动态数据并避免重复

】在Python中使用BS4、Selenium抓取动态数据并避免重复【英文标题】：ScrapingDynamicDataandAvoidingDuplicateswithBS4,SeleniuminPython【发布时间】：2017-06-1103:28:03【问题描述】：我在这里尝试做的是从不断重新加载信息的动态页面中检索数据。... 查看详情