安装自然语言处理工具Nltk以及初次使用

作者：mobiledu2502930043 | 来源：互联网 | 2023-07-30 20:23

步骤一：卸载已经安装的python步骤二：安装python科学计算工具，里面自动安装了很多库，像numpy，matplotlib，nltk等等，并且会自动安装python，安装完成后，不需要配置环境。

步骤一：卸载已经安装的python
步骤二：安装python科学计算工具，里面自动安装了很多库，像numpy，matplotlib，nltk等等，并且会自动安装python，安装完成后，不需要配置环境。下载地址https://www.continuum.io/downloads
我安装的版本是https://repo.continuum.io/archive/Anaconda2-4.2.0-Windows-x86.exe
步骤三：安装pymysql，因为这个工具不包含连接mysql的库。http://www.cnblogs.com/lovely7/p/5828419.html 见之前写的安装。

数据库使用示范：

import pymysql

conn= pymysql.connect(
        host='localhost',
        port = 3306,
        user='root',
        passwd='',
        db ='ad',
        )
#cOnn= MySQLdb.connect(user='root', password='', use_unicode=True)
cursor = conn.cursor()

sql = "SELECT title,abstract,pmb_id,time,url FROM `article` "
a = cursor.execute(sql)
print a
b = cursor.fetchmany(a)  #b has 7887 abstract list

titleandabstractList = []
pmbIDdict= {}
yearlist = []
url_dict = {}
for j in range(a):
    titleandabstractList.append(b[j][0]+b[j][1])
    pmbIDdict[j] = b[j][2]
    yearlist.append(b[j][3].year)
    url_dict[j] = b[j][4]

分词使用示范：使用MWETokenizer可以对词组做分词处理。

from nltk.tokenize import MWETokenizer

tokenizer = MWETokenizer([('a', 'little'), ('a', 'little', 'bit'), ('a', 'lot')])
tokenizer.add_mwe(('in', 'spite', 'of'))

print tokenizer.tokenize('a little Testing testing a lot one two in spite of'.split())


 



未成功的方法
Install Python: http://www.python.org/download/releases/2.7.3/
安装Numpy (optional): http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy
安装Setuptools: http://pypi.python.org/packages/2.7/s/setuptools/setuptools-0.6c11.win32-py2.7.exe
安装 Pip: Start>Run... c:\Python27\Scripts\easy_install pip
安装PyYAML and NLTK: Start>Run... c:\Python27\Scripts\pip install pyyaml nltk

我的电脑之前装过numpy，setuptools，和pip，只需要在python2.7的scripts目录下运行

pip install pyyaml nltk即可。

http://blog.sina.com.cn/s/blog_8af1069601019xmo.html

http://blog.csdn.net/joey_su/article/details/17287559

http://blog.csdn.net/alihonglong/article/details/52668801
http://www.ibm.com/developerworks/cn/opensource/os-pythonnltk/index.html

一 ：以上都是理论可行的方法，但是最近实验室网不行，下载总是timeout。最后使用手机4g连接https://pypi.python.org/simple/nltk/
下载了nltk-3.0.5.win32.exe  终于成功下载安装。
import nltk没有问题

二：https://pypi.python.org/simple/pyyaml/下载安装了 PyYAML-3.10.win32-py2.7.exe

三：下载nltk数据源 。nltk_data是必要的nltk数据包，实现分词，词性标注，命名实体识别等功能都要用到这个数据包

import nltk
nltk.download()

出现

但是下载速度会比较慢

或者到http://www.nltk.org/nltk_data/ 手动下载

但是实验室的网速下了一夜也没下载成功，参考

http://blog.csdn.net/cxq2046/article/details/50972715

下载会很慢或干脆卡住。此时需要手动下载nltk_data包。

下载方法：到https://github.com/nltk/nltk_data下载gh-pages分支，里面的Packages就是我们要的资源里面有部分是压缩包，需要解压

将Packages文件夹改名为nltk_data，放在以下任一路径：

分词 http://wenku.baidu.com/link?url=xJtphneI5792wB7hsIRjB6L8TTT-bCjCEjCzs8Jm_NfzsHRPImge68J3SaiBzrYT5BvFFLn_Vd8J9Z0j5EQyhVgOAKqUazdZE-uSfzhhZL3

推荐阅读

format
MySQL 数据迁移时 .frm 文件报错问题

本文讨论了在进行 MySQL 数据迁移过程中遇到的所有 .frm 文件报错的问题，并提供了详细的解决方案和建议。 ... [详细]

蜡笔小新 2024-11-12 10:47:49
spring
Spring 3.0.5 中获取 MySQL 表的自增主键

本文介绍了如何在 Spring 3.0.5 中使用 JdbcTemplate 插入数据并获取 MySQL 表中的自增主键。 ... [详细]

蜡笔小新 2024-11-13 18:00:32
spring
基于iSCSI的SQL Server 2012群集测试(一)SQL群集安装

一、测试需求介绍与准备公司计划服务器迁移过程计划同时上线SQLServer2012，引入SQLServer2012群集提高高可用性，需要对SQLServ ... [详细]

蜡笔小新 2024-11-13 15:49:49
future
IOS Run loop详解

为什么80%的码农都做不了架构师？转自http:blog.csdn.netztp800201articledetails9240913感谢作者分享Objecti ... [详细]

蜡笔小新 2024-11-13 12:14:35
future
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
import
Pythonmysql数据库

importpymysql#一、直接连接mysql数据库'''coonpymysql.connect(host'192.168.*.*',u ... [详细]

蜡笔小新 2024-11-12 16:51:59
list
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
email
php更新数据库字段的函数是,php更新数据库字段的函数是

php更新数据库字段的函数是,php更新数据库字段的函数是 ... [详细]

蜡笔小新 2024-11-12 11:37:31
config
在 Mac 上安装 HL-340 USB 转串口驱动

本文介绍了如何在 macOS 上安装 HL-340 USB 转串口驱动，并提供了详细的步骤和注意事项。包括下载驱动、关闭系统完整性保护、安装驱动以及验证安装的方法。 ... [详细]

蜡笔小新 2024-11-12 01:55:20
version
使用ArcGIS for Java和Flex浏览自定义ArcGIS Server 9.3地图

本文介绍了如何在Flex应用程序中实现浏览自定义ArcGIS Server 9.3发布的地图。这是一个基本的入门示例，适用于初学者。 ... [详细]

蜡笔小新 2024-11-13 14:40:13
require
Spring 切面配置中的切点表达式详解

本文介绍了如何在Spring框架中使用AspectJ风格的切面配置，详细解释了切点表达式的语法和常见示例，帮助开发者更好地理解和应用Spring AOP。 ... [详细]

蜡笔小新 2024-11-13 14:07:16
search
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
search
最详尽的4K技术科普

什么是4K？4K是一个分辨率的范畴，即40962160的像素分辨率，一般用于专业设备居多，目前家庭用的设备，如 ... [详细]

蜡笔小新 2024-11-12 18:25:39
cmd
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
cmd
探讨HTTP隧道技术在RDP暴力破解中的应用

本文介绍了如何利用HTTP隧道技术在受限网络环境中绕过IDS和防火墙等安全设备，实现RDP端口的暴力破解攻击。文章详细描述了部署过程、攻击实施及流量分析，旨在提升网络安全意识。 ... [详细]

蜡笔小新 2024-11-12 12:08:47

mobiledu2502930043

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章