作者:手机用户2502913123 | 来源:互联网 | 2023-10-15 22:56
训练数据集:有157637条,主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)训练集数据存在重复:去重后有150875训练集分布:正面
训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)
训练集数据存在重复:去重后有150875
训练集分布:正面:负面:中性 占比为:
训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:
类别定义样本数簇个数 大簇超过3000个样本34701 中等簇大于1000小于3000137758 小簇大于100小于100076051 305 微小簇大于32小于10031986565 超小簇大于1小于32313813514 单点等于114741474
从表格可以看出大量数据是样本是在超小簇里或者单点里,可能会导致欠拟合。
测试数据集:有51944个样本,正面:负面:中性占比为:
最好单模型单通道textcnn:
维度正面负面中性正面8346942668负面15561533458 中性1099138528586
维度精确率召回率f1正面0.86940.75140.8061负面0.80620.63000.7073中性0.82350.92010.8691
总体准确率(accuracy):0.8295
可以看出准确率方面:负面、中性低于 0.85, 召回率方面:正面、负面低于0.85, 特别是负面召回不足。
从51944条测试数据中分别抽取正面-正面,正面-负面,正面-中性;负面-正面,负面-中性,负面-负面; 中性-正面,中性-负面,中性-中性各100条数据,共900条数据,结论如下
pos_neg
badcase类别 说明 示例 数量混合型 对不同评论对象有不同情感利好 人 瘦 滚蛋66对比型 回复 蜜桃 噢 尼 女的 比 男的 好看 多了9推理型 已 看 电影 虽然 有点 烂尾 总体来说 不错 哦3难以判断 听说 明天 又要 千股 跌停 好激动 好紧张2
pos_neu
badcase类别说明 示例 数量混合型 他 俩 在一起 简直 完美 但是 单打独斗 时候 都 不行7否定句 新年 新气象 爱 柳岩 无 遗憾2句子太短 牛逼 13句子太长 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至 少 万家 五万名 股东 来 个 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至少 万家 五万名 股东 来 个 开门红 14泛化能力差 收购 纽交所 股权 应是 大 利 好!48
neg_pos
badcase类别 说明 示例数量否定句 回复 布达佩斯 跨年 确实 没 辣么 精彩8反否句 恭喜 西旅 与 赛 石 合作 失败 3反问 为什么 我想要 这么 简单 却 无法 满足 为什么 幸福 和 快乐 总和 我 隔 得 这么 遥远6太长 行 大家 别 质问 老 安 老 安比 你们 对 撕 家 更 上心 他 当然 会 做出 对 撕 家 最好的 决定 小 走了 这 也许 是 命中注定 但是 撕 家 还在 呀 我们 可以 继续爱 他们 一家32