在kaggle的使用新闻预测股票涨跌的ai建模竞赛(2-sigma赞助)

Joey-Zhang Joey-Zhang     2022-12-04     448

关键词:

在Kaggle的使用新闻预测股票涨跌的AI建模竞赛(2-Sigma 赞助)

我们可以使用新闻分析的内容来预测股价表现吗? 如今无处不在的数据使投资者能够以任何规模做出更好的投资决策。 这个竞赛在于提取和解释数据以确定哪些数据有用,在这个信息海洋中找到信号。 Two Sigma对这一挑战充满热情,并很高兴与Kaggle社区分享。

这场比赛最让人兴奋的是,Kaggle现在正在使用提交的模型进行实时的未来市场预测,这对于验证AI能否比人类更好地理解市场非常有意义? 就像AI对围棋的理解甚至要好于世界第一选手。

Two Sigma Investments LP是一家位于纽约市的对冲基金,它使用各种技术方法,包括人工智能,机器学习和分布式计算,用于交易策略。 该公司由John Overdeck和David Siegel经营。 (来自维基百科)管理资产:510亿美元(2017年)

本次比赛的数据来自以下来源:

  1. 市场数据由Intrinio提供
  2. 汤森路透提供的新闻数据。版权所有©,汤森路透,2017年。保留所有权利。
    除竞争规则中所述之外,严禁使用,复制或销售此服务或此处包含的数据。

结果评估

在本次竞赛中,您必须预测一个有符号置信度值y ^ti∈[-1,1],它乘以给定assetCode在十天窗口内的市场调整回报。 如果您预计股票在未来十天内与大盘相比具有较大的正回报,您可以为其分配一个大的,正的置信度值(接近1.0)。 如果您希望股票具有负回报,您可以为其指定一个较大的负置信度值(接近-1.0)。 如果不确定,您可以为其指定接近零的值。
对于评估时间段内的每一天,我们计算:

y置信度值表示股价上涨或下跌的可能性,如果100%信心上涨,则价值将为1,其乘以r(回报:第10天的收盘价 - 第0天的收盘价),因此充分利用 r值,就像下降时明智的100%置信度一样,该值将为-1,它与负值r相乘,然后仍然是正值。

u表示该股票在特定日期可用于交易,例如,如果谷歌在2019年1月24日被暂时停牌,那么该值将为0,从而不会纳入计算

其中rti是股票i的第t天市场调整后的领先回报,而uti是0/1通用变量(如上所述),用于控制特定股票是否包含在特定日期的评分中。
然后,您的提交分数将计算为平均值除以每日xt值的标准差:

为什么2Sigma / Kaggle使用每日x的平均值除以标准差来评分?因为通过这种方式,他们可以选择最好的模型,不仅总体上有良好的回报,而且还考虑到稳定良好的每日表现。

市场数据

市场数据包含通过不同时间跨度计算的各种回报。这组市场数据中的所有回报都具有以下属性:

  1. 回报总是计算为开仓(从一个交易日的开盘时间到另一个交易日的开盘时间)或收盘价(从一个交易日的收盘时间到另一个交易日的开盘时间)
  2. 回报是原始的,意味着数据不是根据任何基准进行调整,或者是市场残差(Mktres),这意味着整个市场的变动已被考虑,只留下工具固有的变动。
  3. 可以在任意任意间隔内计算返回值。这里提供1天和10天的样本。
  4. 如果向以前看,则返回标记为’Prev’,如果向以后看,则返回标记为’Next’。

在市场数据中,您将找到以下列:
5. time(datetime64 [ns,UTC]) - 当前时间(在marketdata中,所有行均在UTC时间22:00获取
6. assetCode(object) - 股票的唯一ID
7. assetName(category) - 与一组assetCodes对应的名称。如果相应的assetCode在新闻数据中没有任何行,则这些可能是“未知”。
8. universe(float64) - 一个布尔值,指示当天的股票是否将包含在评分中。 在训练数据时间段之外不提供该值。
9. 成交量(float64) - 当日股票交易量
10. close(float64) - 当天收盘价(未因为股息或送股而除权)
11. open(float64) - 当天的开盘价(未因为股息或送股而除权)
12. returnsOpenNextMktres10(float64) - 10天,市场回报。这是竞争评分中使用的目标变量。市场数据已经过滤,因此returnsOpenNextMktres10始终不为空。

现在的排行榜


Kaggle也将所有得分超过1.51都过滤掉了,因为结果不合理, 被认为是作弊。 从现在开始,所有提交的模型都在测试未来数据,让我们也监控这个排行榜,我们正在期待结果

在 R 中使用 SVM 进行股票预测 + 新闻情绪?

】在R中使用SVM进行股票预测+新闻情绪?【英文标题】:Stockprediction+newssentimentwithSVMinR?【发布时间】:2019-11-1603:18:18【问题描述】:我想在R中与SVM一起预测股票价格和新闻情绪得分,以查看新闻是否对股票价格及其预测产生影... 查看详情

chatgpt如何做投资?

...股价涨跌。他在近期一篇未经同行评审的论文中表示,在使用ChatGPT来分析新闻头条对一只股票是利好还是利空后,他发现ChatGPT预测次日股票回报方向的能力远好于传统模型。实验是如何进行的?在这项实验中,洛佩兹-里拉及其... 查看详情

数据挖掘竞赛kaggle初战——泰坦尼克号生还预测(代码片段)

...尼克号乘船人员的信息与最后生还情况,利用这些数据,使用机器学习的算法,来分析预测另一部分人员最后是否生还。题目练习的要点是语言和数据分析的基础内容(比如python、numpy、pandas等)以及二分类算法。数据集包含3个文... 查看详情

titanic生存预测(kaggle入门赛)——基于r语言

 Titanic生存预测  ——数据模型汇总报告摘要 R语言多元统计分析课程是一门综合理论和实践的大课程,既需要我们掌握基本的多元统计分析技术理论,又需要针对具体问题在R的环境中实现。      ... 查看详情

预告-分享kaggle上的nfl比赛码数预测

...llo,近期会分享最近的一个Kaggle上的比赛,NFL比赛的码数预测,通过这个比赛还是学到很多,虽然最后分数不理想。。。。这篇分享的内容适用于绝大多于的关于团队竞技类比赛的场景下的预测问题,比如足球、篮球、王者荣耀... 查看详情

支持向量机

...据,判定这个样本属于哪个类别的算法。例如在股票涨跌预测中,我们认为前一天的交易量和收盘价对于第二天的涨跌是有影响的,那么分类器就是通过样本的交易量和收盘价预测第二天的涨跌情况的算法。特征:在分类问题中... 查看详情

kaggle出了一本竞赛书(500页)!

...籍,该书籍内容涵盖了Kaggle的介绍,各种Kaggle的建模问题以及建模的技巧,同时还讲述如何利用Kaggle的经历来构建你的简历等:了解Kaggle是如何运作,如何充分利用 查看详情

动手学深度学习17-kaggle竞赛实践小项目房价预测(代码片段)

...理离散值特征转化为DNArray后续训练训练模型k折交叉验证预测样本,并提交结果kaggle竞赛本节将动手操作实践一个kaggle比赛,房价预测。可以先将未经优化的数据的预处理,模型的设计和超参的选择,可以动手操作,观察实现的... 查看详情

kaggle比赛实践m5-数据集介绍

...重要方面的差异,其中一些是M4竞赛的讨论者提出的。它使用沃尔玛慷慨提供的分层销售数据,从商品级别开始,再汇总到美国三个地理区域(加利福尼亚州,德克萨斯州和威斯康星州)的部门,产品类别和商店。除时间序列数... 查看详情

由kaggle竞赛wiki文章流量预测引发的pandas内存优化过程分享

pandas内存优化分享缘由最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下:在处理数据过程中发现会超出,虽然我们都知道对于大数据... 查看详情

一些商业类kaggle竞赛

...editDefaultRiskCanyoupredicthowcapableeachapplicantisofrepayingaloan?您能预测每个申请人偿还贷款的能力吗?由于信用记录不足或不存在,许多人难以获得贷款。而且,不幸的是,这些人口经常被不可靠的放贷人利用。住房信贷通过提供积极而... 查看详情

火炉炼ai机器学习045-对股票数据进行隐马尔科夫建模(代码片段)

...AI】机器学习045-对股票数据进行隐马尔科夫建模(本文所使用的Python库和版本号:Python3.6,Numpy1.14,scikit-learn0.19,matplotlib2.2)股票数据是非常非常典型的时序数据,数据都是按照日期排列好,而且股价就是我们所能观察到的观测序列,... 查看详情

ai金融:lstm预测股票(代码片段)

...络对于很多关于时间序列的问题却无能无力。例如,你要预测句子的下一个单词是什么,一般需要用到前面的单词,因为一个句子中前后单词并不是独立的。R 查看详情

数学建模相关竞赛零基础上手与入门介绍

...么是数学建模?定义:生活中的各种问题(如股票预测、火灾报警统计等),运用数学的方式去阐述并解决它。数学建模赛事数学建模赛事-第1梯队高教社杯"全国大学生数学建模竞赛(9月)从各赛区送交的优... 查看详情

kaggle:googleanalyticscustomerrevenuepredictioneda(代码片段)

...ion的探索性分析题目要求根据历史顾客访问GStore的数据,预测其中部分顾客在未来的销售额,且预测期与原数据之间不连续主要切入角度为针对待预测的问题,估计出答案的合理区间(数量级水平)项目介绍项目说明:GoogleAnalyt... 查看详情

kaggle大数据竞赛平台入门

Kaggle大数据竞赛平台入门大数据竞赛平台,国内主要是天池大数据竞赛和DataCastle,国外主要就是Kaggle.Kaggle是一个数据挖掘的竞赛平台,网站为:https://www.kaggle.com/.很多的机构,企业将问题,描述,期望发布在Kaggle上,以竞赛的方式向广大... 查看详情

kaggle比赛实践m5-比赛介绍

...失。在这场竞争中,除了传统的预测方法外,你还面临着使用机器学习来提高预测精度的挑战。尼科西亚大学马克里奇斯开放预测中心(MOFC)进行前沿预测研究,并提供商业预测培训。它帮助公司实现准确的预测,估计不确定... 查看详情

在比特币上构建机器学习竞赛市场(代码片段)

...如何在比特币上进行机器学习竞赛Kaggle是一个流行的数据建模和数据分析分析竞赛平台,之前已被Google收购。Kaggle竞赛中包括了很多由Kaggle、Facebook、 查看详情