作者:业余爱好者 | 来源:互联网 | 2023-06-17 13:26
数据简介用户评论分析可以帮助商家倾听用户声音,分析用户满意度,从而及时进行营销策略制定、危机公关等商业决策。但现在的评论语料主要对评论做褒义贬义的粗粒度标注,而对评论内容本身无法理解。我们提供了一个
数据简介
用户评论分析可以帮助商家倾听用户声音,分析用户满意度,从而及时进行营销策略制定、危机公关等商业决策。但现在的评论语料主要对评论做褒义/贬义的粗粒度标注,而对评论内容本身无法理解。
我们提供了一个细粒度的评论标注语料,详细标注了用户评论中的评价对象和评价特征。本语料可以用于情感计算、评论抽取、口碑分析等用途。
数据格式
本语料以xml的形式提供,数据量有160多M大小。共收集了36万篇来自各大汽车论坛的帖子,并人工区分出2.7万篇包含用户对汽车评论的帖子,然后做了细粒度的标注,得到5.7万条标注结果。标注结果包括评价对象以及该对象的评价特征。
评价对象包括:
1)厂商:一汽、大众、日产、本田等
2)品牌:奔驰、宝马、奥迪、凯美瑞等
3)型号:ES240、1.8T手自一体等
4)属性:整体、外观、油耗、动力、性价比、售后、内饰等
评价特征包括:
1)评价内容:用户对厂商、品牌、型号或者属性的主观性评价描述,例如“省油”、“好看”
2)描述值:用户对属性的客观性描述,例如”油耗是12”
3)倾向性:用户评价是褒义、贬义还是中性
标注时还考虑了很多细节:
1)如果评论里包含多个评价对象,则分别进行标注。例如对“某车外观挺好看,就是空间不够宽敞”,分别对某车外观和某车空间进行了标注
2)对用户没有明确说出来的隐含对象,也做了标注。例如对“某车很漂亮”,标注出属性“外观”
3)对比较句也做了标注。例如“某车的内饰不如某车丰富”
4)对用户评价适用的条件也做了标注。例如“某车在跑高速的时候很省油”,将“跑高速”也做了标注
5)记录了程度副词。例如“很漂亮”、“太贵”
数据样例
标注例子1:蒙迪欧致胜2.3豪华版在市区开的时候,油耗到14了,太高了!
品牌 |
型号 |
属性 |
描述值 |
评价内容 |
倾向性 |
条件 |
原帖是否没明确说出该属性 |
蒙迪欧 |
致胜2.3豪华版 |
油耗 |
14 |
太高 |
贬义 |
市区开 |
0(明确说出了) |
标注例子2:跟迈腾和奥迪相比,速腾太省油了
品牌 |
属性 |
对比品牌 |
评价内容 |
倾向性 |
原帖是否没明确说出该属性 |
速腾 |
油耗 |
奥迪 |
省油 |
褒义 |
1(没明确说出) |
速腾 |
油耗 |
迈腾 |
省油 |
褒义 |
1(没明确说出)
|
数据下载:http://www.datatang.com/data/15722
数据堂-数据共享服务平台