登录 注册
English
数据集描述
简介

随着最近深度学习在语音、自然语言处理里面的应用,语音识别的错误率在不断降低,机器翻译的效果也在不断提高。我们提供了一个机器翻译数据集,文本语言方向为英文到中文。我们提供了超过1000万的英中对照的句子对作为数据集合。数据主要来源于英语学习网站和电影字幕,领域为口语领域。所有双语句对经过人工检查,数据集从规模、相关度、质量上都有保障。

训练集:10,000,000 句
验证集(同声传译):934 句
验证集(文本翻译):8000 句

数据说明

一个英中对照的句子对,包含一句英文和一句中文文本,中文句子由英文句子人工翻译而成。中英文句子分别保存到两个文件中,两个文件中的中英文句子以行号形成一一对应的关系。


数据预览

With fruit growing all year round, this is indeed a paradise for birds.
一年都有水果生长,这确实是鸟的天堂。

I dropped Henry at your office an hour ago.
一小时前我开车送海瑞去了你办公室。

Father and son, two bricklayers, are sitting in a cafe arguing about a car.
一对父子,都是泥水匠,他们坐在一家咖啡馆里为一辆汽车争吵不休。

A small, disciplined militia can not only hold out against a larger force but drive it back.
一小支训练有素的民兵不仅可以抵挡强大的军队还可以击退它。

数据下载
训练数据集 1G
sha1sum:
c9a53e3d5000b55b0abf1c509316705aa94d39f3
验证数据集(文本翻译) 1.2M
sha1sum:
087d410bb73eadb16afd000d4a85fc69ebb92a8d
验证数据集(同声传译) 444K
sha1sum:
f4b3f4a9618a4d999b00d21109450b31af90f4dc
验证脚本&基线模型
下载AI Challenger官方提供的验证脚本代码与基线模型

如果发现本网站存在侵犯自身合法权益的内容,请及时与hi@challenger.ai取得联系。