热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

情感分析模型,情感分析

训练数据集:有157637条,主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)训练集数据存在重复:去重后有150875训练集分布:正面

训练数据集:有157637条, 主要由酒店评论数据10000条、财经(主要是股市类)评论数据、微博评论数据(社会类、闲聊)

训练集数据存在重复:去重后有150875

训练集分布:正面:负面:中性  占比为:

                     训练集使用word2vec+DBSCAN 后有5861个类,详细统计如下:

类别定义样本数簇个数 大簇超过3000个样本34701 中等簇大于1000小于3000137758 小簇大于100小于100076051 305 微小簇大于32小于10031986565 超小簇大于1小于32313813514 单点等于114741474 

从表格可以看出大量数据是样本是在超小簇里或者单点里,可能会导致欠拟合。

 

测试数据集:有51944个样本,正面:负面:中性占比为:

最好单模型单通道textcnn:

维度正面负面中性正面8346942668负面15561533458 中性1099138528586

 

维度精确率召回率f1正面0.86940.75140.8061负面0.80620.63000.7073中性0.82350.92010.8691

总体准确率(accuracy):0.8295

可以看出准确率方面:负面、中性低于 0.85, 召回率方面:正面、负面低于0.85, 特别是负面召回不足。

从51944条测试数据中分别抽取正面-正面,正面-负面,正面-中性;负面-正面,负面-中性,负面-负面; 中性-正面,中性-负面,中性-中性各100条数据,共900条数据,结论如下

pos_neg

badcase类别  说明 示例 数量混合型 对不同评论对象有不同情感利好 人 瘦 滚蛋66对比型 回复 蜜桃 噢 尼 女的 比 男的 好看 多了9推理型  已 看 电影 虽然 有点 烂尾 总体来说 不错 哦3难以判断  听说 明天 又要 千股 跌停 好激动 好紧张2    

pos_neu

badcase类别说明 示例  数量混合型 他 俩 在一起 简直 完美 但是 单打独斗 时候 都 不行7否定句 新年 新气象 爱 柳岩 无 遗憾2句子太短   牛逼 13句子太长 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至 少 万家 五万名 股东 来 个 持有的 朋友 预计 一下 复盘 几个 一字 板 我 预计 至少 万家 五万名 股东 来 个 开门红 14泛化能力差   收购 纽交所 股权 应是 大 利 好!48

neg_pos

badcase类别 说明 示例数量否定句 回复 布达佩斯 跨年 确实 没 辣么 精彩8反否句 恭喜 西旅 与 赛 石 合作 失败 3反问 为什么 我想要 这么 简单 却 无法 满足 为什么 幸福 和 快乐 总和 我 隔 得 这么 遥远6太长 行 大家 别 质问 老 安 老 安比 你们 对 撕 家 更 上心 他 当然 会 做出 对 撕 家 最好的 决定 小 走了 这 也许 是 命中注定 但是 撕 家 还在 呀 我们   可以 继续爱 他们 一家32
推荐阅读
  • 本指南从零开始介绍Scala编程语言的基础知识,重点讲解了Scala解释器REPL(读取-求值-打印-循环)的使用方法。REPL是Scala开发中的重要工具,能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习,读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]
  • 第六章:枚举类型与switch结构的应用分析
    第六章深入探讨了枚举类型与 `switch` 结构在编程中的应用。枚举类型(`enum`)是一种将一组相关常量组织在一起的数据类型,广泛存在于多种编程语言中。例如,在 Cocoa 框架中,处理文本对齐时常用 `NSTextAlignment` 枚举来表示不同的对齐方式。通过结合 `switch` 结构,可以更清晰、高效地实现基于枚举值的逻辑分支,提高代码的可读性和维护性。 ... [详细]
  • 技术日志:使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告
    技术日志:使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]
  • 每日前端实战:148# 视频教程展示纯 CSS 实现按钮两侧滑入装饰元素的悬停效果
    通过点击页面右侧的“预览”按钮,您可以直接在当前页面查看效果,或点击链接进入全屏预览模式。该视频教程展示了如何使用纯 CSS 实现按钮两侧滑入装饰元素的悬停效果。视频内容具有互动性,观众可以实时调整代码并观察变化。访问以下链接体验完整效果:https://codepen.io/comehope/pen/yRyOZr。 ... [详细]
  • 本文总结了JavaScript的核心知识点和实用技巧,涵盖了变量声明、DOM操作、事件处理等重要方面。例如,通过`event.srcElement`获取触发事件的元素,并使用`alert`显示其HTML结构;利用`innerText`和`innerHTML`属性分别设置和获取文本内容及HTML内容。此外,还介绍了如何在表单中动态生成和操作``元素,以便更好地处理用户输入。这些技巧对于提升前端开发效率和代码质量具有重要意义。 ... [详细]
  • 在最近的学习过程中,我对Vue.js中的Prop属性有了更深入的理解,并认为这一知识点至关重要,因此在此记录一些心得体会。Prop属性用于在组件之间传递数据。由于每个组件实例的作用域都是独立的,无法直接引用父组件的数据。通过使用Prop,可以将数据从父组件安全地传递到子组件,确保数据的隔离性和可维护性。 ... [详细]
  • Python内置模块详解:正则表达式re模块的应用与解析
    正则表达式是一种强大的文本处理工具,通过特定的字符序列来定义搜索模式。本文详细介绍了Python内置的`re`模块,探讨了其在字符串匹配、验证和提取中的应用。例如,可以通过正则表达式验证电子邮件地址、电话号码、QQ号、密码、URL和IP地址等。此外,文章还深入解析了`re`模块的各种函数和方法,提供了丰富的示例代码,帮助读者更好地理解和使用这一工具。 ... [详细]
  • 在Android开发中,实现多点触控功能需要使用`OnTouchListener`监听器来捕获触摸事件,并在`onTouch`方法中进行详细的事件处理。为了优化多点触控的交互体验,开发者可以通过识别不同的触摸手势(如缩放、旋转等)并进行相应的逻辑处理。此外,还可以结合`MotionEvent`类提供的方法,如`getPointerCount()`和`getPointerId()`,来精确控制每个触点的行为,从而提升用户操作的流畅性和响应性。 ... [详细]
  • 具备括号和分数功能的高级四则运算计算器
    本研究基于C语言开发了一款支持括号和分数运算的高级四则运算计算器。该计算器通过模拟手算过程,对每个运算符进行优先级标记,并按优先级从高到低依次执行计算。其中,加减运算的优先级最低,为0。此外,该计算器还支持复杂的分数运算,能够处理包含括号的表达式,提高了计算的准确性和灵活性。 ... [详细]
  • Vue ElementUI 实现邮箱地址自动补全功能详解 ... [详细]
  • Java环境中Selenium Chrome驱动在大规模Web应用扩展时的性能限制分析 ... [详细]
  • 本文探讨了 Kafka 集群的高效部署与优化策略。首先介绍了 Kafka 的下载与安装步骤,包括从官方网站获取最新版本的压缩包并进行解压。随后详细讨论了集群配置的最佳实践,涵盖节点选择、网络优化和性能调优等方面,旨在提升系统的稳定性和处理能力。此外,还提供了常见的故障排查方法和监控方案,帮助运维人员更好地管理和维护 Kafka 集群。 ... [详细]
  • 本文探讨了 Java 中 Pair 类的历史与现状。虽然 Java 标准库中没有内置的 Pair 类,但社区和第三方库提供了多种实现方式,如 Apache Commons 的 Pair 类和 JavaFX 的 javafx.util.Pair 类。这些实现为需要处理成对数据的开发者提供了便利。此外,文章还讨论了为何标准库未包含 Pair 类的原因,以及在现代 Java 开发中使用 Pair 类的最佳实践。 ... [详细]
  • 本文详细探讨了Java事件处理机制的核心概念与实现原理,内容浅显易懂,适合初学者逐步掌握。通过具体的示例和详细的解释,读者可以深入了解Java事件模型的工作方式及其在实际开发中的应用。 ... [详细]
  • 深入理解 Java 控制结构的全面指南 ... [详细]
author-avatar
手机用户2502913123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有