热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

情感分析模型,情感分析

训练数据集:有157637条,主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)训练集数据存在重复:去重后有150875训练集分布:正面

训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)

训练集数据存在重复:去重后有150875

训练集分布:正面:负面:中性  占比为:

                     训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:

类别定义样本数簇个数 大簇超过3000个样本34701 中等簇大于1000小于3000137758 小簇大于100小于100076051 305 微小簇大于32小于10031986565 超小簇大于1小于32313813514 单点等于114741474 

从表格可以看出大量数据是样本是在超小簇里或者单点里,可能会导致欠拟合。

 

测试数据集:有51944个样本,正面:负面:中性占比为:

最好单模型单通道textcnn:

维度正面负面中性正面8346942668负面15561533458 中性1099138528586

 

维度精确率召回率f1正面0.86940.75140.8061负面0.80620.63000.7073中性0.82350.92010.8691

总体准确率(accuracy):0.8295

可以看出准确率方面:负面、中性低于 0.85, 召回率方面:正面、负面低于0.85, 特别是负面召回不足。

从51944条测试数据中分别抽取正面-正面,正面-负面,正面-中性;负面-正面,负面-中性,负面-负面; 中性-正面,中性-负面,中性-中性各100条数据,共900条数据,结论如下

pos_neg

badcase类别  说明 示例 数量混合型 对不同评论对象有不同情感利好 人 瘦 滚蛋66对比型 回复 蜜桃 噢 尼 女的 比 男的 好看 多了9推理型  已 看 电影 虽然 有点 烂尾 总体来说 不错 哦3难以判断  听说 明天 又要 千股 跌停 好激动 好紧张2    

pos_neu

badcase类别说明 示例  数量混合型 他 俩 在一起 简直 完美 但是 单打独斗 时候 都 不行7否定句 新年 新气象 爱 柳岩 无 遗憾2句子太短   牛逼 13句子太长 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至 少 万家 五万名 股东 来 个 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至少 万家 五万名 股东 来 个 开门红 14泛化能力差   收购 纽交所 股权 应是 大 利 好!48

neg_pos

badcase类别 说明 示例数量否定句 回复 布达佩斯 跨年 确实 没 辣么 精彩8反否句 恭喜 西旅 与 赛 石 合作 失败 3反问 为什么 我想要 这么 简单 却 无法 满足 为什么 幸福 和 快乐 总和 我 隔 得 这么 遥远6太长 行 大家 别 质问 老 安 老 安比 你们 对 撕 家 更 上心 他 当然 会 做出 对 撕 家 最好的 决定 小 走了 这 也许 是 命中注定 但是 撕 家 还在 呀 我们   可以 继续爱 他们 一家32
推荐阅读
author-avatar
手机用户2502913123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有