热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

情感分析模型,情感分析

训练数据集:有157637条,主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)训练集数据存在重复:去重后有150875训练集分布:正面

训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)

训练集数据存在重复:去重后有150875

训练集分布:正面:负面:中性  占比为:

                     训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:

类别定义样本数簇个数 大簇超过3000个样本34701 中等簇大于1000小于3000137758 小簇大于100小于100076051 305 微小簇大于32小于10031986565 超小簇大于1小于32313813514 单点等于114741474 

从表格可以看出大量数据是样本是在超小簇里或者单点里,可能会导致欠拟合。

 

测试数据集:有51944个样本,正面:负面:中性占比为:

最好单模型单通道textcnn:

维度正面负面中性正面8346942668负面15561533458 中性1099138528586

 

维度精确率召回率f1正面0.86940.75140.8061负面0.80620.63000.7073中性0.82350.92010.8691

总体准确率(accuracy):0.8295

可以看出准确率方面:负面、中性低于 0.85, 召回率方面:正面、负面低于0.85, 特别是负面召回不足。

从51944条测试数据中分别抽取正面-正面,正面-负面,正面-中性;负面-正面,负面-中性,负面-负面; 中性-正面,中性-负面,中性-中性各100条数据,共900条数据,结论如下

pos_neg

badcase类别  说明 示例 数量混合型 对不同评论对象有不同情感利好 人 瘦 滚蛋66对比型 回复 蜜桃 噢 尼 女的 比 男的 好看 多了9推理型  已 看 电影 虽然 有点 烂尾 总体来说 不错 哦3难以判断  听说 明天 又要 千股 跌停 好激动 好紧张2    

pos_neu

badcase类别说明 示例  数量混合型 他 俩 在一起 简直 完美 但是 单打独斗 时候 都 不行7否定句 新年 新气象 爱 柳岩 无 遗憾2句子太短   牛逼 13句子太长 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至 少 万家 五万名 股东 来 个 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至少 万家 五万名 股东 来 个 开门红 14泛化能力差   收购 纽交所 股权 应是 大 利 好!48

neg_pos

badcase类别 说明 示例数量否定句 回复 布达佩斯 跨年 确实 没 辣么 精彩8反否句 恭喜 西旅 与 赛 石 合作 失败 3反问 为什么 我想要 这么 简单 却 无法 满足 为什么 幸福 和 快乐 总和 我 隔 得 这么 遥远6太长 行 大家 别 质问 老 安 老 安比 你们 对 撕 家 更 上心 他 当然 会 做出 对 撕 家 最好的 决定 小 走了 这 也许 是 命中注定 但是 撕 家 还在 呀 我们   可以 继续爱 他们 一家32
推荐阅读
  • 本文探讨了在 PHP 的 Zend 框架下,使用 PHPUnit 进行单元测试时遇到的 Zend_Controller_Response_Exception 错误,并提供了解决方案。 ... [详细]
  • 本文提供了一个SQL脚本,用于在Microsoft SQL Server中创建一个数据字典视图,该视图详细列出了表名、表描述、字段名称、字段描述、字段类型、字段大小、字段精度、是否可为空、默认值以及是否为标识或主键等信息。 ... [详细]
  • 本文探讨了Android系统中联系人数据库的设计,特别是AbstractContactsProvider类的作用与实现。文章提供了对源代码的详细分析,并解释了该类如何支持跨数据库操作及事务处理。源代码可从官方Android网站下载。 ... [详细]
  • This article explores the process of integrating Promises into Ext Ajax calls for a more functional programming approach, along with detailed steps on testing these asynchronous operations. ... [详细]
  • 个人博客:打开链接依赖倒置原则定义依赖倒置原则(DependenceInversionPrinciple,DIP)定义如下:Highlevelmo ... [详细]
  • 本文详细介绍了如何通过简单的JavaScript代码,在网页中实现禁用鼠标右键的功能,以保护网页内容不被轻易复制。 ... [详细]
  • 尽管在WPF中工作了一段时间,但在菜单控件的样式设置上遇到了一些基础问题,特别是关于如何正确配置前景色和背景色。 ... [详细]
  • 2019年独角兽企业招聘Python工程师标准课程概览
    本文详细介绍了2019年独角兽企业在招聘Python工程师时的标准课程内容,包括Shell脚本中的逻辑判断、文件属性判断、if语句的特殊用法及case语句的应用。 ... [详细]
  • 本文详细介绍了 Node.js 中 OS 模块的 arch 方法,包括其功能、语法、参数以及返回值,并提供了具体的使用示例。 ... [详细]
  • 本文探讨了互联网服务提供商(ISP)如何可能篡改或插入用户请求的数据流,并提供了有效的技术手段来防止此类劫持行为,确保网络环境的安全与纯净。 ... [详细]
  • 本文基于Java官方文档进行了适当修改,旨在介绍如何实现一个能够同时处理多个客户端请求的服务端程序。在前文中,我们探讨了单客户端访问的服务端实现,而本篇将深入讲解多客户端环境下的服务端设计与实现。 ... [详细]
  • 本文详细介绍了如何使用C#实现不同类型的系统服务账户(如Windows服务、计划任务和IIS应用池)的密码重置方法。 ... [详细]
  • 利用Node.js实现PSD文件的高效切图
    本文介绍了如何通过Node.js及其psd2json模块,快速实现PSD文件的自动化切图过程,以适应项目中频繁的界面更新需求。此方法不仅提高了工作效率,还简化了从设计稿到实际应用的转换流程。 ... [详细]
  • Fiddler 安装与配置指南
    本文详细介绍了Fiddler的安装步骤及配置方法,旨在帮助用户顺利抓取用户Token。文章还涵盖了一些常见问题的解决方案,以确保安装过程顺利。 ... [详细]
  • 通过实际应用思维导图,分享了其在VB编程学习中的作用与价值,以及如何利用思维导图提升编程效率。 ... [详细]
author-avatar
手机用户2502913123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有