抓取 Twitter 用户和关注者数据

     2023-02-24     48

关键词:

【中文标题】抓取 Twitter 用户和关注者数据【英文标题】:Crawl Twitter Users and Followers Data 【发布时间】:2013-07-10 21:46:08 【问题描述】:

我有一个庞大的 twitter 用户数据库(大约 600 万)。我有用户 ID、登录句柄、他们最近的推文、联系方式、位置等。

我想用这些建立一个用户关注者列表。基本上我想创建另一个有两列的表 - 1)用户ID(我拥有的用户的ID) 2)Follower-ID(这个用户的所有follower的id,用分号隔开)

例如:如果 id 为 001 的用户被 id 为 002,003 的用户关注,则记录将如下所示 -

用户 ID - 001 追随者 ID - 002;003

我希望最好使用 Java 来实现这一点,但我也对其他语言持开放态度。

我尝试使用 twitter4j - 一个获取推文、用户等的 Java 库 - 但它对每天的 API 调用次数有限制。 使用 twitter SEARCH OR REST API 是不可能的,因为它没有给我特定用户的追随者的 ID。

我的教授建议我的另一种方法 - 抓取 Twitter 的网页。 例如 - 如果用户句柄是 xxx,那么我需要抓取以下链接 -

https://twitter.com/xxx/followers

获取此网页并解析 HTML 以获取关注者 ID。我使用 Firebug 检查了网页,我可以看到所有关注者的 ID!

这里的问题是 - 我如何为我拥有的 600 万用户做到这一点? (我有句柄,所以只需要爬上面提到的链接,把xxx换成next句柄)

我尝试使用 Crawleer4j - 一个网络爬虫来爬取 Twitter 页面,但由于 Twitter 提高了它们的安全性 - 这也是不可能的。

我该怎么做?请帮忙 - 我这样做是我研究项目的一部分,我真的被困在这里了。

我想找到一种方法来抓取 Twitter 网页以获取所需的信息。

请帮忙!

【问题讨论】:

“Twitter 已经提高了他们的安全性”,特别是因为他们不希望你这样做......如果你可以将这些数据有效地用于研究项目,为什么不尝试联系他们并直接要求? (如果不出意外,您可能会受到速率限制的影响 - 以每秒 1 个用户的速度,需要两个半月才能获得 600 万用户的数据......) 【参考方案1】:

我将从下面的链接开始。它可以完成,但需要相当长的时间。

https://dev.twitter.com/docs/api/1.1/get/followers/ids

https://dev.twitter.com/docs/api/1.1/get/friends/ids

考虑到 Justin Beiber 有 40,000,000 名追随者,因此使用一个令牌拉动需要 5 1/2 天。

40,000,000(关注者)/5,000(通话中返回的记录)/15(15 分钟内最多休息通话)/4(1 小时内间隔 15 分钟)= 133 小时

【讨论】:

我正在做类似的事情。你有没有想通这个或找到一个解决方案,很想一起工作。我肯定会出于不同的原因使用它,并且没有任何非法或不良行为。我希望找到暂停的合法帐户以及 youtube 和 FB。

如何为用户实现关注者,如在 twitter 中

】如何为用户实现关注者,如在twitter中【英文标题】:Howtoimplementfollowersforusers,asintwitter【发布时间】:2011-08-2803:59:13【问题描述】:我有一个使用php和mysql制作的社交网络。我试图弄清楚如何为每个用户制作追随者。我应该在my... 查看详情

如何使用 Tweepy 获取 Twitter 生物信息

】如何使用Tweepy获取Twitter生物信息【英文标题】:HowtogetTwitterbioinformationwithTweepy【发布时间】:2020-02-0204:42:03【问题描述】:我正在使用PythonTweepy在Twitter上抓取用户信息。目前,我可以毫无问题地抓取姓名、关注者数量和关注... 查看详情

从 twitter 获取关注者是不是有任何限制

】从twitter获取关注者是不是有任何限制【英文标题】:Isthereanylimitforfetchingfollowersfromtwitter从twitter获取关注者是否有任何限制【发布时间】:2016-06-0315:45:14【问题描述】:获取用户的关注者列表,但可能有一些用户拥有数百万关... 查看详情

使用 Tweepy 从用户 Twitter 关注者那里获取用户 ID 列表

】使用Tweepy从用户Twitter关注者那里获取用户ID列表【英文标题】:Getlistofuserid\'sfromausersTwitterfollowersusingTweepy【发布时间】:2021-02-2706:05:56【问题描述】:我编写了以下代码来获取用户名拥有的所有Twitter关注者的列表,但我想只... 查看详情

如何在不达到 API 限制的情况下获得所有 Twitter 关注者

】如何在不达到API限制的情况下获得所有Twitter关注者【英文标题】:HowToObtainAllTwitterFollowersWithoutHittingAPILimit【发布时间】:2013-09-0703:46:46【问题描述】:我想这很容易做到,但我不知道我做错了什么。我正在使用Abraham的OAuth来... 查看详情

如何抓取 Instagram 关注者?

】如何抓取Instagram关注者?【英文标题】:HowcanIscrapeinstagramfollowers?【发布时间】:2018-04-0420:34:13【问题描述】:有很多网站,您可以从Instagram个人资料中获取所有关注者的列表。例如JenniferLopez的个人资料。如果我点击关注者并... 查看详情

twitter实际用户数引争议

参考技术ATwitter按照关注人数划分的用户趋势图北京时间4月1日早间消息,Twitter网站的“关于”页面显示,该网站目前已有1.75亿注册用户。由于注册用户数的定义是该网站历史上总共开放的帐户数,因此外界对Twitter的实际用户... 查看详情

按主题从 twitter 用户构建网络图

】按主题从twitter用户构建网络图【英文标题】:Buildingnetworkgraphfromtwitterusersbysubject【发布时间】:2011-11-2821:35:25【问题描述】:我正在尝试为提到特定主题的Twitter用户构建社交网络图。我这样做的策略大致是这样的:在Twitter上... 查看详情

python使用python和yql获取twitter关注者,关注和推文计数(代码片段)

查看详情

如何从 Instagram 网络浏览器中抓取关注者?

】如何从Instagram网络浏览器中抓取关注者?【英文标题】:HowtowebscrapefollowersfromInstagramwebbrowser?【发布时间】:2016-09-1101:20:03【问题描述】:谁能告诉我如何访问基础URL以查看给定用户的Instagram关注者?我可以使用InstagramAPI做到... 查看详情

在 Twitter 的关注按钮中隐藏“关注者”一词

】在Twitter的关注按钮中隐藏“关注者”一词【英文标题】:Hidetheword"followers"inTwitter\'sfollowbutton【发布时间】:2020-02-0106:05:06【问题描述】:Twitter建议使用以下代码在您的网站上呈现关注按钮。<ahref="https://twitter.com/twit... 查看详情

Django 模型:用户和关注者的数据库设计

】Django模型:用户和关注者的数据库设计【英文标题】:Djangomodels:databasedesignforuserandfollower【发布时间】:2017-02-2510:08:07【问题描述】:在Django模型中,我正在制作一个“追随者”表,其中包含:user\'sid.(thisisfollowedby)user\'sid(this... 查看详情

获取关注者的姓名 - Twitter

】获取关注者的姓名-Twitter【英文标题】:Getnameoffollowers-Twitter【发布时间】:2013-08-1215:12:44【问题描述】:我正在尝试从twitter帐户获取关注者列表。我需要从这些朋友那里得到一份名单。我正在尝试使用以下代码获取具有这些... 查看详情

php在twitter上取消关注所有关注者(代码片段)

查看详情

Twitter API - 为拥有数百万关注者的帐户获取关注者列表的有效方法

】TwitterAPI-为拥有数百万关注者的帐户获取关注者列表的有效方法【英文标题】:TwitterAPI-Efficientwaytogetfollowerslistsforaccountswithfewmillionfollowers【发布时间】:2020-02-2021:01:39【问题描述】:我的挑战是获取一个拥有超过3000万关注者... 查看详情

关注者/关注者数据库结构

...09:53【问题描述】:我的网站有一个追随者/追随系统(如Twitter)。我的困境是创建数据库结构来处理谁在关注谁。我想出的是创建一个这样的表:id|user_id|followers|following1|20|23,58,84|11,156,272|21|72,35,14|6,98 查看详情

如何在新的 Spotify Web api 上获取用户的关注者和用户的关注用户?

】如何在新的SpotifyWebapi上获取用户的关注者和用户的关注用户?【英文标题】:Howtogetuser\'sfollowersanduser\'sfollowinguseronthenewSpotifyWebapi?【发布时间】:2014-08-0913:55:00【问题描述】:在查阅了Spotify新的API文档后,我向你们询问了用... 查看详情

获取twitter关注者数量

<?php$xml=file_get_contents('http://twitter.com/users/show.xml?screen_name=catswhocode');if(preg_match('/followers_count>(.*)</',$xml,$match)!=0){ $tw['count']=$match[1];}echo$tw['count'];?> 查看详情