数据集描述
简介

本数据集针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题,构造了30万组由问题、篇章、候选答案组成的训练和测试集合。是目前为止全球难度最大的中文阅读理解公开数据集,全球最大的观点型机器阅读理解公开数据集。

训练集:25万

验证集:3万

测试集A:1万

测试集B:1万


数据说明

每条数据为<问题,篇章,候选答案> 三元组组成

每个问题对应一个篇章(500字以内),以及包含正确答案的三个候选答案

问题:真实用户自然语言问题,从搜索日志中随机选取并由机器初判后人工筛选

篇章:与问题对应的文本段,从问题相关的网页中人工选取

候选答案:人工生成的答案,提供若干(三个)选项,并标注正确答案


数据预览

数据以JSON格式表示如下样例:


                                
        {
            “query_id”:1,
            “query”:“维生c可以长期吃吗”,
            “url”: “https://wenwen.sogou.com/z/q748559425.htm”,
            “passage”: “每天吃的维生素的量没有超过推荐量的话是没有太大问题的。”,
            “alternatives”:”可以|不可以|无法确定”,
            “answer”:“可以”
        }

    

训练集给出上述全部字段,测试集不给answer字段


数据下载
数据集请到相应竞赛页面下载