使用正则表达式快速清洗NLP训练数据的技术详解实战

作者：罂粟花很美也需要阳光 | 来源：互联网 | 2023-10-12 20:17

最近在学习使用EasyDL专业版训练模型,我想试着训练一个情感分析模型,但是手头缺少数据,于是我找到了NLPCC2014_sentiment,在GitHub可以找到,这里我Fork

最近在学习使用EasyDL专业版训练模型,我想试着训练一个情感分析模型,但是手头缺少数据,于是我找到了NLPCC2014_sentiment,在GitHub可以找到,这里我Fork到了码云里以便下载:
https://gitee.com/zheng_bo_pu/NLPCC2014_sentiment
在这里插入图片描述
下载好以后,打开其中一个数据集,这里我打开了sample.negative.txt:

id从5000开始的,也就是说,这里一共有5000条数据,再加上positive那部分,应该有10000条数据,但是EasyDL平台上对训练数据有要求:

文本分类的标注数据格式要求为"文本内容\t标注标签\n"&＃xff08;即每行一个未标注样本与一个标注标签&＃xff0c;中间使用tab键间隔&＃xff0c;每组数据使用回车换行&＃xff09;

很明显现在已有的数据集不符合要求,那我们来处理一下

先看一下现有数据集的格式:
在这里插入图片描述
这是一条数据,我们只要获取标签内的内容,然后加上对应的情感标签即可

获取标签内的内容
这一步我们用正则表达式处理,其实很简单,写成一个函数用来去标签,去空格:
`def filter_tags(self, str):data &＃61; re.compile(r&＃39;<[^>]&＃43;>&＃39;,re.S)data &＃61; data.sub(&＃39;&＃39;,str)#去掉多余的空行blank_line&＃61;re.compile(&＃39;\n&＃43;&＃39;)data &＃61; blank_line.sub(&＃39;\n&＃39;,data)return data`
这里是把整个文本导入并提取我们想要的内容,方便快捷,一步到位:

但是,我们还需要在这些训练数据后面加上情感标签,关键是怎么确定对应的情感标签呢?

加上对应的情感标签
为此,我写个一个类,在类里解决就简单多了:
`class NLP_DATA(object):def init(self,type):self.type &＃61; type`
因为数据集命名时是带有标签的,我们便可以用对应的标签来实例化:
`def main():types &＃61; ["negative","positive"]for type in types:nlp &＃61; NLP_DATA(type)path &＃61; r&＃39;C:\Users\Administrator\Downloads\zheng_bo_pu-NLPCC2014_sentiment-master\NLPCC2014_sentiment\sample.{}.txt&＃39;.format(type)if name &＃61;&＃61; &＃39;main&＃39;:main()`
接下来,只需要根据条件判断给语句加上对应的情感标签即可:
`if self.type &＃61;&＃61; "negative":negative &＃61; open(&＃39;./20200312/negative.txt&＃39;,&＃39;a&＃39;,encoding&＃61;"utf-8")negative.write(datas) else:positive &＃61; open(&＃39;./20200312/positive.txt&＃39;,&＃39;a&＃39;,encoding&＃61;"utf-8")positive.write(datas)`
下面是最终效果:

以上就是本次程序所有的关键代码,下面我们把数据集上传至EasyDL:

接下来我们用这些训练数据进行训练:

准确率在85%作用,看来效果还是不错的,如果数据集更多,效果应该会更好

推荐阅读

config
Scala 实现 UTF-8 编码属性文件读取与克隆

本文介绍如何使用 Scala 以 UTF-8 编码方式读取属性文件，并实现属性文件的克隆功能。通过这种方式，可以确保配置文件在多线程环境下的一致性和高效性。 ... [详细]

蜡笔小新 2024-12-26 08:25:19
sum
构建基于BERT的中文NL2SQL模型：一个简明的基准

本文探讨了将自然语言转换为SQL语句（NL2SQL）的任务，这是人工智能领域中一项非常实用的研究方向。文章介绍了笔者在公司举办的首届中文NL2SQL挑战赛中的实践，该比赛提供了金融和通用领域的表格数据，并标注了对应的自然语言与SQL语句对，旨在训练准确的NL2SQL模型。 ... [详细]

蜡笔小新 2024-12-27 17:36:19
sum
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
copy
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
typescript
从零开始构建完整手机站：Vue CLI 3 实战指南（第一部分）

本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点，并确保这些内容与实际工作中的需求紧密结合。 ... [详细]

蜡笔小新 2024-12-26 13:30:37
sum
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
import
ECharts线性渐变色应用实例

本文详细介绍了如何在ECharts中使用线性渐变色，通过echarts.graphic.LinearGradient方法实现。文章不仅提供了完整的代码示例，还解释了各个参数的具体含义及其应用场景。 ... [详细]

蜡笔小新 2024-12-26 08:13:53
metadata
微软Exchange服务器遭遇2022年版“千年虫”漏洞

微软Exchange服务器在新年伊始遭遇了一个类似于‘千年虫’的日期处理漏洞，导致邮件传输受阻。该问题主要影响配置了FIP-FS恶意软件引擎的Exchange 2016和2019版本。 ... [详细]

蜡笔小新 2024-12-25 14:08:03
python
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
config
深入解析Spring启动过程

本文详细介绍了Spring框架的启动流程，帮助开发者理解其内部机制。通过具体示例和代码片段，解释了Bean定义、工厂类、读取器以及条件评估等关键概念，使读者能够更全面地掌握Spring的初始化过程。 ... [详细]

蜡笔小新 2024-12-21 17:33:44
config
深入探讨DB2数据库性能优化策略

本文详细介绍了IBM DB2数据库在大型应用系统中的应用，强调其卓越的可扩展性和多环境支持能力。文章深入分析了DB2在数据利用性、完整性、安全性和恢复性方面的优势，并提供了优化建议以提升其在不同规模应用程序中的表现。 ... [详细]

蜡笔小新 2024-12-28 13:22:19
config
深入理解LOAM：激光雷达里程计与建图算法

本文基于对相关论文和开源代码的研究，详细介绍了LOAM（激光雷达里程计与建图）的工作原理，并对其关键技术进行了分析。 ... [详细]

蜡笔小新 2024-12-28 11:38:00
config
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
config
Composer Registry Manager：PHP的源切换管理工具

本文介绍了一个用于Composer的源切换管理工具——Composer Registry Manager。该项目旨在简化Composer包源的管理和切换，避免与常见的CRM系统混淆，并提供了详细的安装和使用指南。 ... [详细]

蜡笔小新 2024-12-25 19:34:14
config
基于KVM的SRIOV直通配置及性能测试

SRIOV介绍、VF直通配置，以及包转发率性能测试小慢哥的原创文章，欢迎转载目录?1.SRIOV介绍?2.环境说明?3.开启SRIOV?4.生成VF?5.VF ... [详细]

蜡笔小新 2024-12-25 19:26:39

罂粟花很美也需要阳光

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章