数据集描述
简介

近几年发展极快的短视频行业具有明显的娱乐性和流行性,深受人们喜爱。为促进短视频领域理论与实践的共同发展,我们提供了业内首个多标签短视频分类数据集。数据集共包含20万条短视频,涵盖舞蹈、健身、唱歌等63类流行元素。本数据集分为训练集(12万)、验证集(3万)、测试集A(3万)、测试集B(3万)。本数据集采用多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息将几乎包含视频中展现的所有元素。

相较于传统视频数据集来说,本数据集更具特色。首先,从视频来源上讲,本数据集视频采集设备多为手机且比例多为竖屏;其次,从视频形式上讲,数据集中的很多视频使用了短视频特效,并包含更多视频快进、剪辑等操作;最后,从视频内容上讲,本数据集包含了更多人物中心化的自拍短视频内容。所有这些特点使本数据集在体现以用户为导向的内容生产趋势上得以先人一步。


数据说明

本次短视频实时分类数据集分为训练集(12万)、验证集(3万)、测试集A(3万)、测试集B(3万)。

数据集共包含20万条短视频,涵盖舞蹈、健身、唱歌等63类流行元素。大部分视频的长度为5-15秒。本数据集采用多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息将尽量包含视频中展现的所有元素,每条视频有1-3个标签。

视频所有标签列表如下:

标签ID 标签名称 标签ID 标签名称 标签ID 标签名称
0 21 芭蕾舞 42 游戏
1 22 广场舞 43 娱乐
2 23 民族舞 44 动画
3 兔子 24 绘画 45 文字艺术配音
4 25 手写文字 46 瑜伽
5 风景 26 咖啡拉花 47 健身
6 风土人情 27 沙画 48 滑板
7 穿秀 28 史莱姆 49 篮球
8 宝宝 29 折纸 50 跑酷
9 男生自拍 30 编织 51 潜水
10 女生自拍 31 发饰 52 台球
11 做甜品 32 陶艺 53 足球
12 做海鲜 33 手机壳 54 羽毛球
13 街边小吃 34 打鼓 55 乒乓球
14 饮品 35 弹吉他 56 画眉
15 火锅 36 弹钢琴 57 画眼
16 抓娃娃 37 弹古筝 58 护肤
17 手势舞 38 弹小提琴 59 唇彩
18 街舞 39 弹大提琴 60 卸妆
19 国标舞 40 吹葫芦丝 61 美甲
20 钢管舞 41 唱歌 62 美发

一个标注的可视化例子如下图所示:

该视频中包含了“宝宝”和“弹钢琴”的信息,所以该视频的标注信息如下:

892507542.mp4,8,56

含义为:视频名称,视频标签(使用,分割多标签)

其中8和56分别为“宝宝”和“弹钢琴”的标签。


数据预览
街舞+宝宝


弹钢琴+宝宝


吉他+古筝

数据下载
数据集请到相应竞赛页面下载