python中文本预处理的一般流程_文本挖掘预处理的流程总结

作者：给力的饼干_235 | 来源：互联网 | 2023-09-17 17:14

假设是网页内容，首先须要去掉HtmlTag。lxml和html5lib是比較有名的Python库，beautifulsoup也对他们做了一层封装。只是别

假设是网页内容&＃xff0c;首先须要去掉Html Tag。lxml和html5lib是比較有名的Python库&＃xff0c;beautifulsoup也对他们做了一层封装。只是别忘了。Python本身也自带了sgmllib这种基本可扩展的解析器。假设是有特别的处理。事实上正則表達式也是不错的选择。

处理编码&＃xff0c;由于我主要是处理英文的数据&＃xff0c;这一步基本也跳过了。

将文档切割成句子&＃xff08;可选&＃xff09;。

非常多时候我们採用的是词袋模型&＃xff08;bag of words&＃xff09;&＃xff0c;所以是否切割成句子也无所谓。比較简单的方法就是Python NLTK中的sent_tokenize()函数&＃xff0c;用的是punkt算法&＃xff0c;论文在这里。

将句子切割成词。首先用正則表達式能够自己完毕&＃xff1b;假设要利用已有工具。Python NLTK中的word_tokenize()&＃xff0c;这个方式就是前文提到的Penn TreeBank语料库所使用的分词方法。听起来是不是非常高大上。我是不会告诉你事实上它也是正則表達式实现的。想知道详细实现。戳这里。分词事实上主要干了这么几个事&＃xff1a;1&＃xff09;将’分开.

don&＃39;t -> do n&＃39;t, they&＃39;ll -> they &＃39;ll; 2&＃xff09;将大部分标点当作单独的一个词; 3&＃xff09;将后一位是逗号或者引號的词分开; 4&＃xff09;单独出如今一行的句号分开。中文分词差别比較大&＃xff0c;能够採用斯坦福或者ICTCLAS&＃xff08;中科院背景&＃xff09;的方案。

拼写错误纠正。推荐pyenchant。非常喜欢&＃xff0c;由于简洁到四句语句就能完毕。

Windows 8中操作系统也直接提供了拼写检查的COM端口&＃xff0c;只是就得多花时间研究啦。

POS Tagging&＃xff08;依据实际应用&＃xff09;。还是Nltk。首页就有介绍&＃xff1b;斯坦福也提供了这类工具。

这一块属于NLP的范畴&＃xff0c;还是Parsing等应用&＃xff0c;要了解NLP原理推荐Coursera上一门不错的课程Natural

Language Processing

去掉标点。正則表達式就可以。有的时间非常短的单词也能够一起去掉。len<3的常见的选择

去掉非英文字符的词&＃xff08;依据实际应用决定&＃xff09;。

转换成小写。

去掉停用词。就是在各种句子中都经常出现的一些词&＃xff0c;I、and什么的。

NLTK有一个Stopwords。Matthew

L. Jockers提供了一份比机器学习和自然语言处理中经常使用的停词表更长的停词表。中文停用词戳这里。什么&＃xff1f;你问我停用词怎么找到的。我想大概是IDF这种算法吧。

词型转换。

简单来讲&＃xff0c;我们希望do、did、done都能统一的返回do。第一种方法叫stem&＃xff0c;Porter是比較常见的一种基于规则的算法。网页有snowball工具。也是它的论文。Porter的结果差强人意&＃xff0c;单词末尾有e、y的。基本上stem之后都不间了&＃xff0c;比如replace->replac。末尾有反复单词的。基本仅仅剩一个了&＃xff0c;比如ill->il。

NLTK中也有Stem库。算法应该是相似的。

另外一种方法叫lemmatization&＃xff0c;就是基于词典做词型转换&＃xff0c;NLTK的Stem库中便有WordNetLemmatizer能够使用。

去掉长度过小的词&＃xff08;可选&＃xff09;。假设之前做了。这里要再做一次。由于stem会改变词型。

又一次去停用词。理由同上。

推荐阅读

string
[NOI2012]

来自FallDream的博客，未经允许，请勿转载，谢谢。一天一套noi简直了.昨天勉强做完了noi2011今天教练又丢出来一套noi ... [详细]

蜡笔小新 2024-11-24 17:13:08
list
[编程题] LeetCode上的Dynamic Programming(动态规划)类型的题目

继上次把backTracking的题目做了一下之后：backTracking，我把LeetCode的动态规划的题目又做了一下，还有几道比较难的Medium的题和Hard的题没做出来，后面会继续 ... [详细]

蜡笔小新 2024-11-26 14:31:10
include
HDU1085 捕获本·拉登!

问题描述众所周知，本·拉登是一位臭名昭著的恐怖分子，他已失踪多年。但最近有报道称，他藏匿在中国杭州！虽然他躲在杭州的一个洞穴中不敢外出，但近年来他因无聊而沉迷于数学问题，并声称如果有人能解出他的题目，他就自首。 ... [详细]

蜡笔小新 2024-11-26 12:42:38
web
JavaScript实现的五种网页弹窗技术详解

本文详细介绍了利用JavaScript实现的五种不同的网页弹出窗口技术，包括全屏窗口、全屏模式窗口、带收藏链接工具栏的窗口、网页对话框及HTA窗口。 ... [详细]

蜡笔小新 2024-11-26 12:39:22
md5
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
const
深入解析 cache-content-type 和 mime-types 的应用与优化

本文介绍了两个重要的Node.js库——cache-content-type和mime-types，它们在处理HTTP响应头时非常有用。cache-content-type是基于mime-types构建的，并且实现了缓存机制以提高性能。 ... [详细]

蜡笔小新 2024-11-25 16:51:02
list
进程管理：并发、并行、子进程启动与进程池应用

本文介绍了进程的基本概念及其在操作系统中的重要性，探讨了进程与程序的区别，以及如何通过多进程实现并发和并行。文章还详细讲解了Python中的multiprocessing模块，包括Process类的使用方法、进程间的同步与异步调用、阻塞与非阻塞操作，并通过实例演示了进程池的应用。 ... [详细]

蜡笔小新 2024-11-25 16:40:13
list
IIS6批量添加主机头，修改IIS数据库

首先，找到IIS的数据库。默认是在C:\WINDOWS\system32\inetsrv下的MetaBase.xml文件。如果找不到，请右键右键站点-》所有服务-》将配置保存到一个 ... [详细]

蜡笔小新 2024-11-25 10:44:48
list
SharePoint BDC 集成挑战与解决方案

本文探讨了在SharePoint环境中使用BDC（Business Data Catalog）时遇到的问题及其解决策略，包括XML文件导入SSP后的不可见性问题以及与远程SQL Server 2005连接的难题。 ... [详细]

蜡笔小新 2024-11-25 05:32:41
list
Android 开发框架整合：MVP + Retrofit + Dagger2 + RxAndroid 配置指南

本文将详细介绍如何配置并整合MVP架构、Retrofit网络请求库、Dagger2依赖注入框架以及RxAndroid响应式编程库，构建高效、模块化的Android应用。 ... [详细]

蜡笔小新 2024-11-24 20:16:02
list
实用浏览器插件与高效工具推荐

本文旨在介绍一系列提升工作效率的浏览器插件和实用小工具，帮助用户在日常工作中更加便捷高效。内容由原作者授权发布。 ... [详细]

蜡笔小新 2024-11-26 10:10:09
include
在Windows环境下安装FFTW并利用其库函数实现4096点FFT计算

本文介绍了如何在Windows操作系统中安装FFTW库，并详细说明了使用Visual Studio 2010进行4096点快速傅里叶变换（FFT）的步骤。包括下载预编译文件、生成库文件以及配置环境等关键环节。 ... [详细]

蜡笔小新 2024-11-26 09:26:23
include
解决MenuItem中通过app:actionLayout使用Switch时出现的空指针异常问题

在Android应用开发中，当在MenuItem中通过app:actionLayout属性使用Switch控件时，可能会遇到空指针异常的问题。本文将探讨该问题的原因及解决方案。 ... [详细]

蜡笔小新 2024-11-25 21:37:06
include
二进制数组构建与遍历二叉树

本文探讨了如何利用数组来构建二叉树，并介绍了通过队列实现的二叉树层次遍历方法。通过具体的C++代码示例，详细说明了构建及打印二叉树的过程。 ... [详细]

蜡笔小新 2024-11-25 19:31:10
testing
Implementing and Testing Ext Ajax Calls with Promises

This article explores the process of integrating Promises into Ext Ajax calls for a more functional programming approach, along with detailed steps on testing these asynchronous operations. ... [详细]

蜡笔小新 2024-11-24 15:29:28

给力的饼干_235

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章