当前位置: 开发笔记 > 前端 > 正文

微信、QQ群短文本聊天语料总结

作者：激越工作室 | 来源：互联网 | 2023-08-25 15:56

在文本分类任务中，语料的特性千差万别，我们需要找到适合模型并抓住数据的特性，最终才能得到较好的model。最近在文本类别标注任务ÿ

　　在文本分类任务中&＃xff0c;语料的特性千差万别&＃xff0c;我们需要找到适合模型并抓住数据的特性&＃xff0c;最终才能得到较好的model。最近在文本类别标注任务&＃xff0c;就是给文本打标签确定该文本的类别。这是一个很费人工的过程&＃xff0c;需要认真仔细&＃xff0c;因为我们都知道有多少人工就有多少智能。

　　微信、QQ短文本&＃xff1a;

　　&＃xff08;1&＃xff09;如何分段

　　聊天文本的边界是无法确定的&＃xff0c;那我们如何截取一个群聊的文本作为我们的一个训练样本呢。目前初步的做法是&＃xff1a;首先约定字数&＃xff0c;达到多少文字我们就认定可以是一个样本段落&＃xff1b;同时加入聊天时间作为辅助标准&＃xff0c;某一时间间隔的数据可以作为一个样本。这只是两个方向&＃xff0c;具体实施过程还要根据实际任务来确定。明确一点&＃xff0c;标注的一个文本段落不可太长&＃xff0c;太长会造成主题模糊&＃xff0c;标注时无法正确明确标签类别&＃xff0c;还有就是溯源的时候回带来一定影响。

　　&＃xff08;2&＃xff09;文本特性

　　对话形式&＃xff0c;不同的人随时会有发言&＃xff0c;通俗的讲就是你一句我一句&＃xff1b;包含“&＃64;”符号&＃xff0c;后面接微信QQ用户名&＃xff0c;可以说这是无用信息&＃xff0c;但是在群聊天中大量存在&＃xff1b;表情符号&＃xff0c;群成员会发大量的表情&＃xff1b;文本中充斥了大量广告、祝福&＃xff0c;从其它处赋值粘贴的内容。

持续更新

转:https://www.cnblogs.com/demo-deng/p/10275628.html

推荐阅读

html
使用Numpy实现无外部库依赖的双线性插值图像缩放

本文介绍如何仅使用Numpy库，通过双线性插值方法实现图像的高效缩放，避免了对OpenCV等图像处理库的依赖。文中详细解释了算法原理，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-28 13:15:40
html
深入解析 BERT 中的 Transformer Attention 机制

本文详细介绍了 BERT 模型中 Transformer 的 Attention 机制，包括其原理、实现代码以及在自然语言处理中的应用。通过结合多个权威资源，帮助读者全面理解这一关键技术。 ... [详细]

蜡笔小新 2024-12-28 12:57:56
html
QUIC协议：快速UDP互联网连接

QUIC（Quick UDP Internet Connections）是谷歌开发的一种旨在提高网络性能和安全性的传输层协议。它基于UDP，并结合了TLS级别的安全性，提供了更高效、更可靠的互联网通信方式。 ... [详细]

蜡笔小新 2024-12-28 12:33:18
html
国内BI工具迎战国际巨头Tableau，稳步崛起

尽管商业智能（BI）工具在中国的普及程度尚不及国际市场，但近年来，随着本土企业的持续创新和市场推广，国内主流BI工具正逐渐崭露头角。面对国际品牌如Tableau的强大竞争，国内BI工具通过不断优化产品和技术，赢得了越来越多用户的认可。 ... [详细]

蜡笔小新 2024-12-28 11:12:44
html
QBlog开源博客系统：Page_Load生命周期与参数传递优化（第四部分）

本教程将深入探讨QBlog开源博客系统的Page_Load生命周期，并介绍一种简洁的参数传递重构方法。通过视频演示和详细讲解，帮助开发者更好地理解和应用这些技术。 ... [详细]

蜡笔小新 2024-12-28 10:39:53
html
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
html
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
html
程序员思维：深入解析与应用

本文探讨了如何像程序员一样思考，强调了将复杂问题分解为更小模块的重要性，并讨论了如何通过妥善管理和复用已有代码来提高编程效率。 ... [详细]

蜡笔小新 2024-12-28 01:48:10
html
python的交互模式怎么输出名文汉字[python常见问题]

在命令行模式下敲命令python，就看到类似如下的一堆文本输出，然后就进入到Python交互模式，它的提示符是>>>，此时我们可以使用print() ... [详细]

蜡笔小新 2024-12-27 21:32:05
html
火星商店问题：线段树分治与持久化Trie树的应用

本题涉及编号为1至n的火星商店，每个商店有一个永久商品价值v。操作包括每天在指定商店增加一个新商品，以及查询某段时间内某些商店中所有商品（含永久商品）与给定密码值的最大异或结果。通过线段树分治和持久化Trie树来高效解决此问题。 ... [详细]

蜡笔小新 2024-12-27 21:23:11
html
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
html
汇编语言高级特性总结

本文总结了汇编语言中第五至第八章的关键知识点，涵盖间接寻址、指令格式、安全编程空间、逻辑运算指令及数据重复定义等内容。通过详细解析这些内容，帮助读者更好地理解和应用汇编语言的高级特性。 ... [详细]

蜡笔小新 2024-12-27 19:52:28
html
FastJSON解析与数据提取技巧

探讨如何高效使用FastJSON进行JSON数据解析，特别是从复杂嵌套结构中提取特定字段值的方法。 ... [详细]

蜡笔小新 2024-12-27 19:49:07
html
Maven多模块项目管理最佳实践

本文详细介绍了如何使用Maven高效管理多模块项目，涵盖项目结构设计、依赖管理和构建优化等方面。通过具体的实例和配置说明，帮助开发者更好地理解和应用Maven在复杂项目中的优势。 ... [详细]

蜡笔小新 2024-12-27 19:29:15
cookies
深入理解Cookie与Session会话管理

本文详细介绍了如何通过HTTP响应和请求处理浏览器的Cookie信息，以及如何创建、设置和管理Cookie。同时探讨了会话跟踪技术中的Session机制，解释其原理及应用场景。 ... [详细]

蜡笔小新 2024-12-27 18:20:43

激越工作室

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章