当前位置: 开发笔记 > 编程语言 > 正文

使用Python删除小词

作者：她的马尔代夫 | 来源：互联网 | 2023-10-11 18:29

使用

当然，这也不难：

shortword = re.compile(r'\W*\b\w{1,3}\b')

上面的表达式选择任何以某些非单词字符开头的单词（本质上是空格或开头），其长度在1-3个字符之间，并以单词边界结尾。

>>> shortword.sub('', anytext) ' echo chamber from Ontario '

该\b边界的比赛是很重要的位置，他们保证你不匹配只是一个字的第一个或最后3个字符。

在\W*一开始，您可以删除这两个词和前面的非单词字符，这样句子的其余部分仍然匹配起来。需要注意的是标点符号包含在\W，使用\s，如果你只是
想删除前面的空白。

值得一提的是，这种正则表达式解决方案在其余单词之间 保留了 额外的空格，而mgilson的版本将多个空格字符折叠成一个空格。不知道这对您是否重要。

他的列表理解解决方案是两者中较快的一种：

>>> import timeit >>> def re_remove(text): return shortword.sub('', text) ... >>> def lc_remove(text): return ' '.join(word for word in text.split() if len(word)>3) ... >>> timeit.timeit('remove(" in the echo chamber from Ontario duo ")', 'from __main__ import re_remove as remove') 7.0774190425872803 >>> timeit.timeit('remove(" in the echo chamber from Ontario duo ")', 'from __main__ import lc_remove as remove') 6.4250049591064453

推荐阅读

split
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
split
解析JSON格式文本并处理数据

本文介绍如何使用阿里云的fastjson库解析包含时间戳、IP地址和参数等信息的JSON格式文本，并进行数据处理和保存。 ... [详细]

蜡笔小新 2024-12-26 16:06:09
int
寻找满足特定条件的整数N的最大和(a+b)

本文探讨了如何在给定整数N的情况下，找到两个不同的整数a和b，使得它们的和最大，并且满足特定的数学条件。 ... [详细]

蜡笔小新 2024-12-26 19:26:18
metadata
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42
int
Python文本处理与可视化：分词及词云生成

本文介绍如何使用Python进行文本处理，包括分词和生成词云图。通过整合多个文本文件、去除停用词并生成词云图，展示文本数据的可视化分析方法。 ... [详细]

蜡笔小新 2024-12-26 08:37:18
split
C＃字符串处理如何从字符串中获取路径和args - C# string handling how get path and args from a string

Ihaveastringwithquotesaroundthepathasfollows:我在路径周围有一个带引号的字符串,如下所示:C:\ProgramFiles(x ... [详细]

蜡笔小新 2024-12-23 16:21:52
post
扫描线三巨头 hdu1928hdu 1255 hdu 1542 [POJ 1151]

学习链接：http:blog.csdn.netlwt36articledetails48908031学习扫描线主要学习的是一种扫描的思想，后期可以求解很 ... [详细]

蜡笔小新 2024-12-26 20:04:36
window
Objective-C 编程中的关键语法点

本文探讨了 Objective-C 中的一些重要语法特性，包括 goto 语句、块（block）的使用、访问修饰符以及属性管理等。通过实例代码和详细解释，帮助开发者更好地理解和应用这些特性。 ... [详细]

蜡笔小新 2024-12-26 19:42:38
split
解析Java中Text.splitText()方法及其应用场景

本文详细介绍了Java中org.w3c.dom.Text类的splitText()方法，通过多个代码示例展示了其实际应用。该方法用于将文本节点在指定位置拆分为两个节点，并保持在文档树中。 ... [详细]

蜡笔小新 2024-12-26 18:31:42
post
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
split
深入解析JDBC源码

本文详细探讨了JDBC（Java数据库连接）的内部机制，重点分析其作为服务提供者接口（SPI）框架的应用。通过类图和代码示例，展示了JDBC如何注册驱动程序、建立数据库连接以及执行SQL查询的过程。 ... [详细]

蜡笔小新 2024-12-25 19:59:15
int
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
int
信用评分卡的Python实现与评估

本文介绍如何使用Python构建和评估信用评分卡模型，涵盖数据预处理、模型训练及验证指标选择。附带详细代码示例和视频教程链接。 ... [详细]

蜡笔小新 2024-12-25 10:16:23
int
解决C++编译错误C3867的方法

本文详细介绍了在不同版本的Visual Studio中，如何正确处理成员函数指针以避免编译错误C3867。同时，提供了一个具体的代码示例及其优化方案。 ... [详细]

蜡笔小新 2024-12-25 07:37:26
int
使用Pandas高效读取SQL脚本中的数据

本文详细介绍了如何利用Pandas直接读取和解析SQL脚本，提供了一种高效的数据处理方法。该方法适用于各种数据库导出的SQL脚本，并且能够显著提升数据导入的速度和效率。 ... [详细]

蜡笔小新 2024-12-24 21:56:10

她的马尔代夫

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章