登录 注册
English
数据集描述
简介

图像中文描述问题融合了计算机视觉与自然语言处理两个方向。我们的数据集对给定的每一张图片有五句话的中文描述。描述句子符合自然语言习惯,点明了图像中的重要信息,涵盖主要人物、场景、动作等内容。此次发布的图像描述数据集以中文描述语句为主,与同类科研任务常见的英文数据集相比,中文描述通常在句法、词法上灵活度较大,算法实现的挑战也较大。数据集包含30万张图片,150万句中文描述。

训练集:210,000 张
验证集:30,000 张

数据说明

数据形式包含图像和对应5句中文描述,以下图为例。

中文描述

1)蓝天下一个穿灰色T恤帅小伙以潇洒的姿势上篮

2)蔚蓝的天空下一位英姿飒爽的男孩在上篮

3)蓝天下一个腾空跃起的男人正在奋力地灌篮

4)一个穿着灰色运动装的男生在晴朗的天空下打篮球

5)一个短头发的男孩在篮球场上腾空跃起

数据预览
详情
描述1 :
描述2 :
描述3 :
描述4 :
描述5 :
详情
描述1 :
描述2 :
描述3 :
描述4 :
描述5 :
详情
描述1 :
描述2 :
描述3 :
描述4 :
描述5 :
详情
描述1 :
描述2 :
描述3 :
描述4 :
描述5 :
详情
描述1 :
描述2 :
描述3 :
描述4 :
描述5 :
详情
描述1 :
描述2 :
描述3 :
描述4 :
描述5 :
数据集论文
数据下载
训练数据集 19.2G
sha1sum:
ecafb50a4bd29213772941a5a559d4f741c214b6
验证数据集 2.1G
sha1sum:
b01b3dc3ab62499d3485fb780e0c26aad979f972
验证脚本&基线模型
下载AI Challenger官方提供的验证脚本代码与基线模型

如果发现本网站存在侵犯自身合法权益的内容,请及时与hi@challenger.ai取得联系。