无意义的空间名词

作者：tomorrow | 来源：互联网 | 2023-08-12 20:12

我正在使用Spacy从句子中提取名词。这些句子在语法上很差，也可能包含一些拼写错误。这是我正在使用的代码：代码

我正在使用 Spacy 从句子中提取名词。这些句子在语法上很差，也可能包含一些拼写错误。

这是我正在使用的代码：

代码

import spacy import re nlp = spacy.load("en_core_web_sm") sentence= "HANDBRAKE - slow and fast (SFX)" string= sentence.lower() cleanString = re.sub('W+',' ', string ) cleanString=cleanString.replace("_", " ") doc= nlp(cleanString) for token in doc: if token.pos_=="NOUN": print (token.text)

输出：

sfx

同样对于句子“fast foward2”，我得到 Spacy 名词为

foward2

这表明这些名词有一些无意义的词，如：sfx、foward2、ms、64x、bit、pwm、r、brailledisplayfastmovement等。

我只想保留包含合理的单词名词的短语，如 broom、ticker、pool、highway 等。

我尝试过 Wordnet 过滤 wordnet 和 spacy 之间的常用名词，但它有点严格，并且还过滤了一些合理的名词。例如，它过滤了摩托车、whoosh、手推车、金属、手提箱、拉链等名词

因此，我正在寻找一种解决方案，在该解决方案中，我可以从我获得的 spacy 名词列表中过滤掉最合理的名词。

回答

It seems you can use pyenchant library:

Enchant is used to check the spelling of words and suggest corrections for words that are miss-spelled. It can use many popular spellchecking packages to perform this task, including ispell, aspell and MySpell. It is quite flexible at handling multiple dictionaries and multiple languages.
More information is available on the Enchant website:
https://abiword.github.io/enchant/

Sample Python code:

import spacy, re import enchant #pip install pyenchant d = enchant.Dict("en_US") nlp = spacy.load("en_core_web_sm") sentence = "For example, it filters nouns like motorbike, whoosh, trolley, metal, suitcase, zip etc" cleanString = re.sub('[W_]+',' ', sentence.lower()) # Merging W and _ into one regex doc= nlp(cleanString) for token in doc: if token.pos_=="NOUN" and d.check(token.text): print (token.text) # => [example, nouns, motorbike, whoosh, trolley, metal, suitcase, zip]

推荐阅读

format
Go GUIlxn/walk 学习3.菜单栏和工具栏的具体实现

本文介绍了使用Go语言的GUI库lxn/walk实现菜单栏和工具栏的具体方法，包括消息窗口的产生、文件放置动作响应和提示框的应用。部分代码来自上一篇博客和lxn/walk官方示例。文章提供了学习GUI开发的实际案例和代码示例。 ... [详细]

蜡笔小新 2023-12-12 20:56:55
python
基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本

文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]

蜡笔小新 2023-12-12 13:27:42
python
EzPP 0.2发布，新增YAML布局渲染功能

EzPP发布了0.2.1版本，新增了YAML布局渲染功能，可以将YAML文件渲染为图片，并且可以复用YAML作为模版，通过传递不同参数生成不同的图片。这个功能可以用于绘制Logo、封面或其他图片，让用户不需要安装或卸载Photoshop。文章还提供了一个入门例子，介绍了使用ezpp的基本渲染方法，以及如何使用canvas、text类元素、自定义字体等。 ... [详细]

蜡笔小新 2023-12-11 12:39:10
object
Python对Excel文件的读取方法及模块安装

本文介绍了Python对Excel文件的读取方法，包括模块的安装和使用。通过安装xlrd、xlwt、xlutils、pyExcelerator等模块，可以实现对Excel文件的读取和处理。具体的读取方法包括打开excel文件、抓取所有sheet的名称、定位到指定的表单等。本文提供了两种定位表单的方式，并给出了相应的代码示例。 ... [详细]

蜡笔小新 2023-12-14 19:49:05
python
安装mysqlclient失败解决办法

本文介绍了在MAC系统中，使用django使用mysql数据库报错的解决办法。通过源码安装mysqlclient或将mysql_config添加到系统环境变量中，可以解决安装mysqlclient失败的问题。同时，还介绍了查看mysql安装路径和使配置文件生效的方法。 ... [详细]

蜡笔小新 2023-12-14 18:24:10
byte
EPICS Archiver Appliance存储waveform记录的尝试及资源需求分析

本文介绍了EPICS Archiver Appliance存储waveform记录的尝试过程，并分析了其所需的资源容量。通过解决错误提示和调整内存大小，成功存储了波形数据。然后，讨论了储存环逐束团信号的意义，以及通过记录多圈的束团信号进行参数分析的可能性。波形数据的存储需求巨大，每天需要近250G，一年需要90T。然而，储存环逐束团信号具有重要意义，可以揭示出每个束团的纵向振荡频率和模式。 ... [详细]

蜡笔小新 2023-12-14 17:43:56
get
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
format
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
format
使用pymysql的Python无法向mysql数据库中的表添加字段

WhenIusepythontoapplythepymysqlmoduletoaddafieldtoatableinthemysqldatabase,itdo ... [详细]

蜡笔小新 2023-12-12 13:45:10
format
module 'paddle.fluid' has no attribute 'data'

modulepaddle.fluidhasnoattributedata解决：pipinstallpaddlepaddle-gpu1.7.0.post107-ih ... [详细]

蜡笔小新 2023-12-12 13:23:39
format
【shell】网络处理：判断IP是否在网段、两个ip是否同网段、IP地址范围、网段包含关系

本文介绍了使用shell脚本判断IP是否在同一网段、判断IP地址是否在某个范围内、计算IP地址范围、判断网段之间的包含关系的方法和原理。通过对IP和掩码进行与计算，可以判断两个IP是否在同一网段。同时，还提供了一段用于验证IP地址的正则表达式和判断特殊IP地址的方法。 ... [详细]

蜡笔小新 2023-12-12 11:19:14
format
IOS开发之短信发送与拨打电话的方法详解

本文详细介绍了在IOS开发中实现短信发送和拨打电话的两种方式，一种是使用系统底层发送，虽然无法自定义短信内容和返回原应用，但是简单方便；另一种是使用第三方框架发送，需要导入MessageUI头文件，并遵守MFMessageComposeViewControllerDelegate协议，可以实现自定义短信内容和返回原应用的功能。 ... [详细]

蜡笔小新 2023-12-11 20:15:47
format
Anaconda 安装第三方包(以jieba工具为例)

1.直接在cmd窗口运行pipinstalljieba2.使用conda自带的安装工具condainstalljieba3.有一些模块是无法使用以上两种方式安装上ÿ ... [详细]

蜡笔小新 2023-12-11 16:56:45
format
Postgresql备份和恢复的方法及命令行操作步骤

本文介绍了使用Postgresql进行备份和恢复的方法及命令行操作步骤。通过使用pg_dump命令进行备份，pg_restore命令进行恢复，并设置-h localhost选项，可以完成数据的备份和恢复操作。此外，本文还提供了参考链接以获取更多详细信息。 ... [详细]

蜡笔小新 2023-12-11 10:17:12
format
用python编写购物程序(2)的实现步骤和代码示例

本文介绍了使用Python编写购物程序的实现步骤和代码示例。程序启动后，用户需要输入工资，并打印商品列表。用户可以根据商品编号选择购买商品，程序会检测余额是否充足，如果充足则直接扣款，否则提醒用户。用户可以随时退出程序，在退出时打印已购买商品的数量和余额。附带了完整的代码示例。 ... [详细]

蜡笔小新 2023-12-11 09:39:47

tomorrow

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章