当前位置: 开发笔记 > 编程语言 > 正文

NLPPython笔记——nltk模块基础操作

作者：u02022042 | 来源：互联网 | 2023-09-09 12:54

nltk是一款常用的基于python的NLP工具包，本文介绍了nlkt的安装导入以及一些基础的函数操作。1.安装（1）安装nltk库&#x

nltk是一款常用的基于python的NLP工具包&＃xff0c;本文介绍了nlkt的安装导入以及一些基础的函数操作。

1. 安装

&＃xff08;1&＃xff09;安装nltk库&＃xff1a; pip install nlkt

&＃xff08;2&＃xff09;下载nltk库中的book文件&＃xff1a;

import nltk nltk.download()

运行--> 弹出下载界面 --> 选择book--> 设置好路径--> Download

&＃xff08;3&＃xff09;下载好后&＃xff0c;加载nltk的book模块中所有条目&＃xff1a;

from nltk.book import *

&＃xff08;4&＃xff09;加载后&＃xff0c;就可以使用库中包含的文档了。如&＃xff0c;text1/tex2/tex3.....

2. 几个基础函数

&＃xff08;1&＃xff09;搜索文本&＃xff1a;text.concordance(word)

例如&＃xff0c;在text1中搜索词”is”在文本中出现的次数以及上下文的词&＃xff1a;text1.concordance("is")

&＃xff08;2&＃xff09;搜索上下文相似的词&＃xff1a;text.similar(word)

例如&＃xff0c;在text1中搜索哪些相似的词出现在词”is”的上下文中&＃xff1a;text1.similar("is")

&＃xff08;3&＃xff09;搜索几个词汇上下文的公共词汇&＃xff1a;text.common_contexts([word1,word2…])

例如&＃xff0c;在text1中搜索哪些词是”is”和“that”上下文中的公共词汇&＃xff1a;text1.common_contexts(["is","that"])

&＃xff08;4&＃xff09;离散图表示词出现的位置序列&＃xff1a;text.dispersion_plot([word1, word2,])

例如&＃xff0c;用离散图表示词"am","is","are","the","a"在text1中出现的位置&＃xff0c;即从开头算起的第多少个词&＃xff1a;text1.dispersion_plot(["am","is","are","the","a"])

&＃xff08;5&＃xff09;统计文本标示符&＃xff08;单词和标点符号&＃xff09;的个数&＃xff1a;len(text)

&＃xff08;6&＃xff09;获取文本的词汇表&＃xff08;含标点符号&＃xff09;&＃xff1a;set(text)

&＃xff08;7&＃xff09;获取词汇表并排序&＃xff1a;sorted(set(text))

&＃xff08;8&＃xff09;统计词汇表的大小&＃xff1a;len(set(text))

转:https://www.cnblogs.com/yucen/p/9343551.html

推荐阅读

input
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
input
PyCharm下载与安装指南

本文详细介绍如何从官方渠道下载并安装PyCharm集成开发环境（IDE），涵盖Windows、macOS和Linux系统，同时提供详细的安装步骤及配置建议。 ... [详细]

蜡笔小新 2024-12-28 09:42:41
runtime
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
runtime
解决 Python 项目中 setuptools_rust 模块缺失问题

本文介绍了在安装或运行 Python 项目时遇到的 'ModuleNotFoundError: No module named setuptools_rust' 错误，并提供了解决方案。 ... [详细]

蜡笔小新 2024-12-27 18:06:18
header
Python爬虫实战：豆瓣电影Top250数据抓取

本文详细介绍了如何使用Python编写爬虫程序，从豆瓣电影Top250页面抓取电影信息。文章涵盖了从基础的网页请求到处理反爬虫机制，再到多页数据抓取的全过程，并提供了完整的代码示例。 ... [详细]

蜡笔小新 2024-12-27 16:55:07
header
DNN Community 和 Professional 版本的主要差异

本文详细解析了 DotNetNuke (DNN) 的两种主要版本：Community 和 Professional。通过对比两者的功能和附加组件，帮助用户选择最适合其需求的版本。 ... [详细]

蜡笔小新 2024-12-27 13:14:08
input
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
input
离线环境下的Python及其第三方库安装指南

在项目开发中，有时会遇到电脑只能连接内网或完全无法联网的情况。本文将详细介绍如何在这种环境下安装Python及其所需的第三方库，确保开发工作的顺利进行。 ... [详细]

蜡笔小新 2024-12-26 19:51:48
shell
使用Vultr云服务器和Namesilo域名搭建个人网站

本文详细介绍了如何通过Vultr云服务器和Namesilo域名搭建一个功能齐全的个人网站，包括购买、配置服务器以及绑定域名的具体步骤。文章还提供了详细的命令行操作指南，帮助读者顺利完成建站过程。 ... [详细]

蜡笔小新 2024-12-26 16:36:34
utf-8
Python配置文件读写指南

本文详细介绍如何使用Python进行配置文件的读写操作，涵盖常见的配置文件格式（如INI、JSON、TOML和YAML），并提供具体的代码示例。 ... [详细]

蜡笔小新 2024-12-28 08:39:55
utf-8
Java 中的 BigDecimal pow()方法，示例

Java 中的 BigDecimal pow()方法，示例 ... [详细]

蜡笔小新 2024-12-27 20:54:03
input
深入理解Tornado模板系统

本文详细介绍了Tornado框架中模板系统的使用方法。Tornado自带的轻量级、高效且灵活的模板语言位于tornado.template模块，支持嵌入Python代码片段，帮助开发者快速构建动态网页。 ... [详细]

蜡笔小新 2024-12-27 19:22:16
client
使用 Azure Service Principal 和 Microsoft Graph API 获取 AAD 用户列表

本文介绍了一段通用代码示例，该代码不仅能够操作 Azure Active Directory (AAD)，还可以通过 Azure Service Principal 的授权访问和管理 Azure 订阅资源。Azure 的架构可以分为两个层级：AAD 和 Subscription。 ... [详细]

蜡笔小新 2024-12-27 16:07:12
utf-8
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
utf-8
使用 SQLiteJDBC 和 HikariCP 实现 Java 程序连接 SQLite 数据库

本文介绍了如何通过 Maven 依赖引入 SQLiteJDBC 和 HikariCP 包，从而在 Java 应用中高效地连接和操作 SQLite 数据库。文章提供了详细的代码示例，并解释了每个步骤的实现细节。 ... [详细]

蜡笔小新 2024-12-26 17:34:42

u02022042

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章