数据集描述
简介

随着深度学习技术的不断发展,近年来机器翻译研究研究受到了越来越多的关注。我们提供了一个英中机器翻译数据集,包含了1000万英中对照的句子对作为数据集合。数据主要来源于英语学习网站和电影字幕,领域为口语领域。另外,我们还提供300万带有上下文情景的英中双语口语数据。所有双语句对经过人工检查,数据集从规模、相关度、质量上都有保障。

训练集:1300万

验证集:8000

测试集A:8000

测试集B:8000


数据说明

训练集文件名train.txt,其中每个训练样例包含自左至右4个元素:DocID, SenID, EngSen,ChnSen。DocID表示这个样例出现在哪个文件中,DocID用来提供训练集中句子出现的场景和上下文情景。SenID表示这个样例在DocID中出现的位置,比如,如果SenID为94,那么这个样例就是DocID的第94句话。若无上下文信息,则DocID和SenID均为NA。EngSen和ChnSen分别对应英文句子和中文句子,二者互译。

验证集和测试集为.sgm文件,句子格式和训练集相同。其中测试集没有与英文句子EngSen对应的中文句子ChnSen。

训练集和测试集、验证集的上下文文件包含所有语句的上下文的信息,其中每行包含自左至右三个元素:DocID, SenID, EngSen


数据预览

训练集样例如下所示(第一列DocID, 第二列SenID, 第三列EngSen,第四列ChnSen):

测试集、验证集样例如下所示(第一列为DocID,第二列SenID,第三列EngSen):

验证集中文样例如下所示:

上下文文件样例如下所示(第一列为DocID,第二列SenID,第三列EngSen):


数据下载
数据集请到相应竞赛页面下载