登录 注册
English
赛题描述
简介

对股票价格趋势的预测是金融领域极为复杂和极为关键的问题,有效市场假说认为股票价格趋势不可能被预测,然而真实市场由于各种因素的存在并不完全有效,这对于股票市场而言相当于一种“错误”。这里我们为参赛者提供了大规模的股票历史数据,从而可以通过集合大家的智慧来纠正股票市场的这些“错误”。

数据说明

数据集包括训练数据集和测试数据集两部分,用户可在右侧下载。

训练数据集用来进行模型训练,是一个以逗号分隔的文本文件(csv),格式示例:

id feature0 feature1 ... weight label group1 group2 era
0 0.254232 0.473321 ... 9.0 1.0 1 5 1.0
1 0.763212 0.309311 ... 3.0 0.0 7 87 1.0

其中id列为数据唯一标识编码,feature列为原始数据经过变换之后得到的特征,weight列为样本重要性,label列为待预测二分类标签,group1和group2是两列类别特征,era列为时间区间编号(数值越小时间越早)。

测试数据集用来进行模型预测,是一个以逗号分隔的文本文件(csv),格式示例:

id feature0 feature1 ... group1 group2
600001 0.427248 0.754322 ... 1 5
600002 0.253232 0.543121 ... 7 87

其中id列为数据唯一标识编码,feature列为原始数据经过变换之后得到的特征。测试数据集不包括weight列、label列和era列。


结果提交说明

选手可以在周一00:00:00~周五23:59:59之间上传本期比赛结果,期间不限制上传次数,周六之后不再接受新的上传,将按照选手最后一次上传结果进行评分。

上传的结果为一个以逗号分隔的文本文件(csv),格式示例:

id proba
600001 0.843231
600002 0.323443

其中id和测试数据集的id一列完全对应,proba为预测为正类即标签为1的概率,概率值必须为0~1之间的某个浮点数。


评价标准

虚拟股票趋势预测比赛的评价指标类比一般二分类问题的评价方式,将最终的logloss值作为最终选手排名的依据,logloss的计算方法如下:

$$logloss = -\sum_{i=1}^N (w^i * (y_t^i * \ln(y_p^i) + (1 - y_t^i) * \ln(1 - y_p^i)))$$

其中$$y_t^i$$是第i个样本的真实标签,$$y_p^i$$是第i个样本预测为正类的概率,$$w^i$$是第i个样本的样本权重,N是测试集样本数量。


比赛提示

不同于其他的机器学习竞赛数据集,本竞赛数据集有其特殊性,在于:

独立同分布假设不成立

虚拟股票竞赛中,训练集和测试集的数据分布并不完全一样。通过大量提交得到的公开排名最佳模型,很有可能是过拟合的结果,在最终排名上表现不佳。所以选手要着重注意模型的泛化能力。

未来数据问题

在每一个时点上我们只能利用之前的信息进行预测,因此我们在数据集中提供了era一列表示样本产生的时间,数值越小,样本所在的时间越早。选手们需要注意的是:

- 测试数据集在任何情况下都不能引入到训练集(包括但不限于非监督学习、数据归一化),否则可能出现严重的过拟合问题,导致公开排名和最终排名出现较大差异。

- 对于交叉验证,建议按照训练数据era列随机抽取一个或若干个era进行交叉验证,而不是在全部训练样本上进行随机采样进行交叉验证,这也是我们加入了era列的主要目的。

- 数据的分布也是随时间而变化,也就是说,有可能在某个较长的时间周期下,某些特征保持不变,因此建议选手对数据集的特征进行更深入的分析。

同组数据具有更高相似性

group1和group2是两列类别特征。group1是粗划分类别,group2是细划分类别,相同类别内的股票具有更高程度的相似性,选手可根据自己的需求选择使用。

数据下载
训练数据集 - 第13期
下载
测试数据集 - 第13期
下载
注:训练数据集和测试数据集每期更新,提交预测结果前请确保您使用的是最新数据。