热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

安装自然语言处理工具Nltk以及初次使用

步骤一:卸载已经安装的python步骤二:安装python科学计算工具,里面自动安装了很多库,像numpy,matplotlib,nltk等等,并且会自动安装python,安装完成后,不需要配置环境。
步骤一:卸载已经安装的python
步骤二:安装python科学计算工具,里面自动安装了很多库,像numpy,matplotlib,nltk等等,并且会自动安装python,安装完成后,不需要配置环境。下载地址https://www.continuum.io/downloads
我安装的版本是https://repo.continuum.io/archive/Anaconda2-4.2.0-Windows-x86.exe
步骤三:安装pymysql,因为这个工具不包含连接mysql的库。http://www.cnblogs.com/lovely7/p/5828419.html 见之前写的安装。

数据库使用示范:
import pymysql
conn= pymysql.connect( host='localhost', port = 3306, user='root', passwd='', db ='ad', ) #cOnn= MySQLdb.connect(user='root', password='', use_unicode=True) cursor = conn.cursor() sql = "SELECT title,abstract,pmb_id,time,url FROM `article` " a = cursor.execute(sql) print a b = cursor.fetchmany(a) #b has 7887 abstract list titleandabstractList = [] pmbIDdict= {} yearlist = [] url_dict = {} for j in range(a): titleandabstractList.append(b[j][0]+b[j][1]) pmbIDdict[j] = b[j][2] yearlist.append(b[j][3].year) url_dict[j] = b[j][4]

 

分词使用示范:使用MWETokenizer可以对词组做分词处理。

from nltk.tokenize import MWETokenizer

tokenizer = MWETokenizer([('a', 'little'), ('a', 'little', 'bit'), ('a', 'lot')])
tokenizer.add_mwe(('in', 'spite', 'of'))

  print tokenizer.tokenize('a little Testing testing a lot one two in spite of'.split())

 

 






未成功的方法
Install Python: http://www.python.org/download/releases/2.7.3/
安装Numpy (optional): http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy
安装Setuptools: http://pypi.python.org/packages/2.7/s/setuptools/setuptools-0.6c11.win32-py2.7.exe
安装 Pip: Start>Run... c:\Python27\Scripts\easy_install pip
安装PyYAML and NLTK: Start>Run... c:\Python27\Scripts\pip install pyyaml nltk

我的电脑之前装过numpy,setuptools,和pip,只需要在python2.7的scripts目录下运行
pip install pyyaml nltk即可。

http://blog.sina.com.cn/s/blog_8af1069601019xmo.html

http://blog.csdn.net/joey_su/article/details/17287559

http://blog.csdn.net/alihonglong/article/details/52668801
http://www.ibm.com/developerworks/cn/opensource/os-pythonnltk/index.html

一 :以上都是理论可行的方法,但是最近实验室网不行,下载总是timeout。最后使用手机4g连接https://pypi.python.org/simple/nltk/
下载了nltk-3.0.5.win32.exe 终于成功下载安装。
import nltk没有问题
二:https://pypi.python.org/simple/pyyaml/下载安装了 PyYAML-3.10.win32-py2.7.exe

三:下载nltk数据源 。nltk_data是必要的nltk数据包,实现分词,词性标注,命名实体识别等功能都要用到这个数据包

import nltk
nltk.download()

出现

但是下载速度会比较慢

 

或者到http://www.nltk.org/nltk_data/ 手动下载

 

但是实验室的网速下了一夜也没下载成功,参考

http://blog.csdn.net/cxq2046/article/details/50972715

下载会很慢或干脆卡住。此时需要手动下载nltk_data包。

 下载方法:到https://github.com/nltk/nltk_data下载gh-pages分支,里面的Packages就是我们要的资源里面有部分是压缩包,需要解压

将Packages文件夹改名为nltk_data,放在以下任一路径:

 

 

分词 http://wenku.baidu.com/link?url=xJtphneI5792wB7hsIRjB6L8TTT-bCjCEjCzs8Jm_NfzsHRPImge68J3SaiBzrYT5BvFFLn_Vd8J9Z0j5EQyhVgOAKqUazdZE-uSfzhhZL3




 

推荐阅读
  • Windows下配置PHP5.6的方法及注意事项
    本文介绍了在Windows系统下配置PHP5.6的步骤及注意事项,包括下载PHP5.6、解压并配置IIS、添加模块映射、测试等。同时提供了一些常见问题的解决方法,如下载缺失的msvcr110.dll文件等。通过本文的指导,读者可以轻松地在Windows系统下配置PHP5.6,并解决一些常见的配置问题。 ... [详细]
  • REVERT权限切换的操作步骤和注意事项
    本文介绍了在SQL Server中进行REVERT权限切换的操作步骤和注意事项。首先登录到SQL Server,其中包括一个具有很小权限的普通用户和一个系统管理员角色中的成员。然后通过添加Windows登录到SQL Server,并将其添加到AdventureWorks数据库中的用户列表中。最后通过REVERT命令切换权限。在操作过程中需要注意的是,确保登录名和数据库名的正确性,并遵循安全措施,以防止权限泄露和数据损坏。 ... [详细]
  • 如何去除Win7快捷方式的箭头
    本文介绍了如何去除Win7快捷方式的箭头的方法,通过生成一个透明的ico图标并将其命名为Empty.ico,将图标复制到windows目录下,并导入注册表,即可去除箭头。这样做可以改善默认快捷方式的外观,提升桌面整洁度。 ... [详细]
  • 本文介绍了计算机网络的定义和通信流程,包括客户端编译文件、二进制转换、三层路由设备等。同时,还介绍了计算机网络中常用的关键词,如MAC地址和IP地址。 ... [详细]
  • Linux如何安装Mongodb的详细步骤和注意事项
    本文介绍了Linux如何安装Mongodb的详细步骤和注意事项,同时介绍了Mongodb的特点和优势。Mongodb是一个开源的数据库,适用于各种规模的企业和各类应用程序。它具有灵活的数据模式和高性能的数据读写操作,能够提高企业的敏捷性和可扩展性。文章还提供了Mongodb的下载安装包地址。 ... [详细]
  • Windows 7 部署工具DISM学习(二)添加补丁的步骤详解
    本文详细介绍了在Windows 7系统中使用部署工具DISM添加补丁的步骤。首先需要将光驱中的安装文件复制到指定文件夹,并进行挂载。然后将需要的MSU补丁解压并集成到系统中。文章给出了具体的命令和操作步骤,帮助读者完成补丁的添加过程。 ... [详细]
  • 延迟注入工具(python)的SQL脚本
    本文介绍了一个延迟注入工具(python)的SQL脚本,包括使用urllib2、time、socket、threading、requests等模块实现延迟注入的方法。该工具可以通过构造特定的URL来进行注入测试,并通过延迟时间来判断注入是否成功。 ... [详细]
  • CEPH LIO iSCSI Gateway及其使用参考文档
    本文介绍了CEPH LIO iSCSI Gateway以及使用该网关的参考文档,包括Ceph Block Device、CEPH ISCSI GATEWAY、USING AN ISCSI GATEWAY等。同时提供了多个参考链接,详细介绍了CEPH LIO iSCSI Gateway的配置和使用方法。 ... [详细]
  • Windows2003 IIS上设置301定向,实现不带www域名跳转带www域名的方法
    打开IIS,建一个网站,主机头用不带www的域名,随便指向一个目录。然后在这个网站上点右键,属性--主目录--重定向到URL如图ÿ ... [详细]
  • Postgresql备份和恢复的方法及命令行操作步骤
    本文介绍了使用Postgresql进行备份和恢复的方法及命令行操作步骤。通过使用pg_dump命令进行备份,pg_restore命令进行恢复,并设置-h localhost选项,可以完成数据的备份和恢复操作。此外,本文还提供了参考链接以获取更多详细信息。 ... [详细]
  • 本文详细介绍了使用 SQL Load 和 Excel 的 Concatenate 功能将数据导入 ORACLE 数据库的方法和步骤,同时介绍了使用 PL/SQL tools 将数据导入临时表的方法。此外,还提供了一个转链接,可参考更多相关内容。摘要共计XXX字。 ... [详细]
  • Centos7搭建ELK(Elasticsearch、Logstash、Kibana)教程及注意事项
    本文介绍了在Centos7上搭建ELK(Elasticsearch、Logstash、Kibana)的详细步骤,包括下载安装包、安装Elasticsearch、创建用户、修改配置文件等。同时提供了使用华为镜像站下载安装包的方法,并强调了保证版本一致的重要性。 ... [详细]
  • 本文详细介绍了在ASP.NET中获取插入记录的ID的几种方法,包括使用SCOPE_IDENTITY()和IDENT_CURRENT()函数,以及通过ExecuteReader方法执行SQL语句获取ID的步骤。同时,还提供了使用这些方法的示例代码和注意事项。对于需要获取表中最后一个插入操作所产生的ID或马上使用刚插入的新记录ID的开发者来说,本文提供了一些有用的技巧和建议。 ... [详细]
  • 本文介绍了一些Java开发项目管理工具及其配置教程,包括团队协同工具worktil,版本管理工具GitLab,自动化构建工具Jenkins,项目管理工具Maven和Maven私服Nexus,以及Mybatis的安装和代码自动生成工具。提供了相关链接供读者参考。 ... [详细]
  • 本文分析了Wince程序内存和存储内存的分布及作用。Wince内存包括系统内存、对象存储和程序内存,其中系统内存占用了一部分SDRAM,而剩下的30M为程序内存和存储内存。对象存储是嵌入式wince操作系统中的一个新概念,常用于消费电子设备中。此外,文章还介绍了主电源和后备电池在操作系统中的作用。 ... [详细]
author-avatar
mobiledu2502930043
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有