数据集描述
简介

用户评论对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。为了促进情感分析技术的发展,我们提供了一个面向餐饮领域的细粒度用户评论情感分析数据集,包含33.5万条自大众点评的真实公开用户评论,依据其粒度不同构建双层标注体系,共包含6大类20个细粒度要素。

训练集:105,000条

验证集:15,000条

测试集A:15,000条

测试集B:200,000条


数据说明

数据集分为训练、验证、测试A与测试B四部分。数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。评价对象的具体划分如下表所示。

层次一(The first layer) 层次二(The second layer)
位置(location) 交通是否便利(traffic convenience)
距离商圈远近(distance from business district)
是否容易寻找(easy to find)
服务(service) 排队等候时间(wait time)
服务人员态度(waiter’s attitude)
是否容易停车(parking convenience)
点菜/上菜速度(serving speed)
价格(price) 价格水平(price level)
性价比(cost-effective)
折扣力度(discount)
环境(environment) 装修情况(decoration)
嘈杂情况(noise)
就餐空间(space)
卫生情况(cleaness)
菜品(dish) 分量(portion)
口感(taste)
外观(look)
推荐程度(recommendation)
其他(others) 本次消费感受(overall experience)
再次消费的意愿(willing to consume again)

每个细粒度要素的情感倾向有四种状态:正向、中性、负向、未提及。使用[1,0,-1,-2]四个值对情感倾向进行描述,情感倾向值及其含义对照表如下所示:

情感倾向值(Sentimental labels) 1 0 -1 -2
含义(Meaning) 正面情感(Positive) 中性情感(Neutral) 负面情感(Negative) 情感倾向未提及(Not mentioned)

数据标注示例如下:

“味道不错的面馆,性价比也相当之高,分量很足~女生吃小份,胃口小的,可能吃不完呢。环境在面馆来说算是好的,至少看上去堂子很亮,也比较干净,一般苍蝇馆子还是比不上这个卫生状况的。中午饭点的时候,人很多,人行道上也是要坐满的,隔壁的冒菜馆子,据说是一家,有时候也会开放出来坐吃面的人。“
层次一(The first layer) 层次二(The second layer) 标注 (Label)
位置(location) 交通是否便利(traffic convenience) -2
距离商圈远近(distance from business district) -2
是否容易寻找(easy to find) -2
服务(service) 排队等候时间(wait time) -2
服务人员态度(waiter’s attitude) -2
是否容易停车(parking convenience) -2
点菜/上菜速度(serving speed) -2
价格(price) 价格水平(price level) -2
性价比(cost-effective) 1
折扣力度(discount) -2
环境(environment) 装修情况(decoration) 1
嘈杂情况(noise) -2
就餐空间(space) -2
卫生情况(cleaness) 1
菜品(dish) 分量(portion) 1
口感(taste) 1
外观(look) -2
推荐程度(recommendation) -2
其他(others) 本次消费感受(overall experience) 1
再次消费的意愿(willing to consume again) -2

数据预览
"公司附近最好吃的烤肉店啦~价格又便宜,东西又好吃~就在栖山路苗圃路路口,公交车站旁边~周一至周四点牛舌、五花肉和调味叉烧可以买一送一~划算哟~牛舌有调味牛舌、厚切原味牛舌和薄切原味牛舌~薄切的比较嫩哦~一般两个人点个肉(还能送一个肉)再加个拌饭或者年糕就能吃饱啦~花费也就80左右~一般去他们那还会点个芝士蛋卷,好吃哟~还可以蘸着色拉酱吃~哦对了,他们家免费赠送的黑米粥很赞~喜欢的可以多来两碗,关键是,免费哟!"
location_traffic_ convenience 22122 environment_ decoration 22-222
location_distance _from_business_ district -2 environment_noise -2
location_easy _to_find -2 environment_ space -2
service_wait_time -2 environment_ cleaness -2
service_ wait_time -2 environment_ cleaness -2
service_waiters_ attitude -2 dish_portion -2
service_parking_ convenience -2 dish_taste 1
service_serving_ speed -2 dish_look -2
price_level 1 dish_recommendation -2
price_cost_ effective 1 others_overall_ experience 1
price_discount effective 1 others_willing_to_ consume_again -2

标注字段说明:

location_traffic_ convenience location_distance_from_ business_district location_easy_ to_find service_ wait_time
位置-交通是否便利 位置-距离商圈远近 位置-是否容易寻找 服务-排队等候时间
service_waiters_ attitude service_parking_ convenience service_serving_ speed environment_noise
服务-服务人员态度 服务-是否容易停车 服务-点菜/上菜速度 价格-价格水平
price_cost_ effective price_discount environment_ decoration environment_noise
价格-性价比 价格-折扣力度 环境-装修情况 环境-嘈杂情况
environment_space environment_ cleaness dish_portion dish_taste
环境-就餐空间 环境-卫生情况 菜品-分量 菜品-口感
dish_look dish_recommendation others_overall_ experience others_willing_to_ consume_again
菜品-外观 菜品-推荐程度 其他-本次消费感受 其他-再次消费的意愿


数据下载
数据集请到相应竞赛页面下载