当前位置: 开发笔记 > 编程语言 > 正文

python中文自然语言处理_Python中文自然语言处理：一、基础文本处理

作者：56修行者场_872 | 来源：互联网 | 2023-09-10 09:43

对中文进行分词importjiebatext你好，我正在进行Python自然语言处理，有些问题需要处理,笑哈哈wordjieba.cut(text

对中文进行分词

import jieba

text &＃61; &＃39;你好&＃xff0c;我正在进行Python自然语言处理&＃xff0c;有些问题需要处理,笑哈哈&＃39;

word &＃61; jieba.cut(text)

word_list &＃61; &＃39; &＃39;.join(word).split(&＃39; &＃39;)

print(word_list)

输出&＃xff1a;

[&＃39;你好&＃39;, &＃39;&＃xff0c;&＃39;, &＃39;我&＃39;, &＃39;正在&＃39;, &＃39;进行&＃39;, &＃39;Python&＃39;, &＃39;自然语言&＃39;, &＃39;处理&＃39;, &＃39;&＃xff0c;&＃39;, &＃39;有些&＃39;, &＃39;问题&＃39;, &＃39;需要&＃39;, &＃39;处理&＃39;, &＃39;,&＃39;, &＃39;笑哈哈&＃39;]

去除文本中的标点符号

import re

reg &＃61; r"[\s&＃43;\.\!\/_,$%^*(&＃43;\"\&＃39;]&＃43;|[&＃43;——&＃xff01;&＃xff0c;。&＃xff1f;、~&＃64;#&＃xffe5;%……&*&＃xff08;&＃xff09;]&＃43;"

for i in word_list:

result &＃61; re.match(reg,i)

if result !&＃61; None:

word_list.remove(i)

print(word_list)

输出&＃xff1a;

[&＃39;你好&＃39;, &＃39;我&＃39;, &＃39;正在&＃39;, &＃39;进行&＃39;, &＃39;Python&＃39;, &＃39;自然语言&＃39;, &＃39;处理&＃39;, &＃39;有些&＃39;, &＃39;问题&＃39;, &＃39;需要&＃39;, &＃39;处理&＃39;, &＃39;笑哈哈&＃39;]

生成一个单词的起始位置

text_no_punp &＃61; re.sub("[\s&＃43;\.\!\/_,$%^*(&＃43;\"\&＃39;]&＃43;|[&＃43;——&＃xff01;&＃xff0c;。&＃xff1f;、~&＃64;#&＃xffe5;%……&*&＃xff08;&＃xff09;]&＃43;", "",text)

print(list(jieba.tokenize(text_no_punp)))

输出&＃xff1a;

[(&＃39;你好&＃39;, 0, 2), (&＃39;我&＃39;, 2, 3), (&＃39;正在&＃39;, 3, 5), (&＃39;进行&＃39;, 5, 7), (&＃39;Python&＃39;, 7, 13), (&＃39;自然语言&＃39;, 13, 17), (&＃39;处理&＃39;, 17, 19), (&＃39;有些&＃39;, 19, 21), (&＃39;问题&＃39;, 21, 23), (&＃39;需要&＃39;, 23, 25), (&＃39;处理&＃39;, 25, 27), (&＃39;笑哈哈&＃39;, 27, 30)]

去除重复词

class RepeatReplacer(object):

def __init__(self):

self.repeat_regexp &＃61; re.compile(r&＃39;(\w*)(\w)\2(\w*)&＃39;)

self.repl &＃61; r&＃39;\1\2\3&＃39;

def replace(self,word):

repl_word &＃61; self.repeat_regexp.sub(self.repl,word)

if repl_word !&＃61; word:

return self.replace(repl_word)

else:

return repl_word

replacer &＃61; RepeatReplacer()

replacer.replace("高高兴兴")

输出&＃xff1a;

&＃39;高兴&＃39;

对文本应用Zipf定律

import nltk

from nltk.corpus import brown

from nltk.probability import FreqDist

import matplotlib

import matplotlib.pyplot as plt

# 解决中文和负号显示

from pylab import mpl

mpl.rcParams[&＃39;font.sans-serif&＃39;] &＃61; [&＃39;SimHei&＃39;]

mpl.rcParams[&＃39;axes.unicode_minus&＃39;] &＃61; False

matplotlib.use(&＃39;MacOSX&＃39;)

fd &＃61; FreqDist()

for text in gutenberg.fileids():

for word in gutenberg.words(text):

fd[word]&＃43;&＃61; 1

ranks &＃61; []

freqs &＃61; []

for rank, word in enumerate(fd):

ranks.append(rank&＃43;1)

freqs.append(fd[word])

plt.figure(figsize&＃61;(15,8))

plt.loglog(ranks,freqs,&＃39;.-&＃39;)

plt.xlabel(&＃39;词频(f)&＃39;, fontsize&＃61;14, fontweight&＃61;&＃39;bold&＃39;)

plt.ylabel(&＃39;排名(r)&＃39;, fontsize&＃61;14, fontweight&＃61;&＃39;bold&＃39;)

plt.grid(True)

plt.show()

1240

相似性度量

from nltk.metrics import *

text1 &＃61; &＃39;你好&＃xff0c;我正在使用Python自然语言处理&＃xff0c;有些问题正在处理,嘿嘿&＃39;

word1 &＃61; jieba.cut(text1)

word_list1 &＃61; &＃39; &＃39;.join(word1).split(&＃39; &＃39;)

# print(word_list1)

for i in word_list1:

result &＃61; re.match(reg,i)

if result !&＃61; None:

word_list1.remove(i)

print(word_list)

print(word_list1)

# 准确性度量

print(accuracy(word_list,word_list1))

#　Jaccard相似系数度量

print(jaccard_distance(set(word_list),set(word_list1)))

# MASI距离度量

print(masi_distance(set(word_list),set(word_list1)))

# 二值距离度量

print(binary_distance(set(word_list),set(word_list1)))

输出&＃xff1a;

[&＃39;你好&＃39;, &＃39;我&＃39;, &＃39;正在&＃39;, &＃39;使用&＃39;, &＃39;Python&＃39;, &＃39;自然语言&＃39;, &＃39;处理&＃39;, &＃39;有些&＃39;, &＃39;问题&＃39;, &＃39;正在&＃39;, &＃39;处理&＃39;, &＃39;嘿嘿&＃39;]

0.75

0.38461538461538464

0.12692307692307692

1.0

分享到&＃xff1a;

推荐阅读

token
ASP.NET2.0数据教程之十四：使用FormView的模板

本文介绍了在ASP.NET 2.0中使用FormView控件来实现自定义的显示外观，与GridView和DetailsView不同，FormView使用模板来呈现，可以实现不规则的外观呈现。同时还介绍了TemplateField的用法和FormView与DetailsView的区别。 ... [详细]

蜡笔小新 2023-12-13 08:07:00
main
第四章高阶函数（参数传递、高阶函数、lambda表达式）（python进阶）的讲解和应用

本文主要讲解了第四章高阶函数（参数传递、高阶函数、lambda表达式）的相关知识，包括函数参数传递机制和赋值机制、引用传递的概念和应用、默认参数的定义和使用等内容。同时介绍了高阶函数和lambda表达式的概念，并给出了一些实例代码进行演示。对于想要进一步提升python编程能力的读者来说，本文将是一个不错的学习资料。 ... [详细]

蜡笔小新 2023-12-12 15:52:48
php
Tkinter Frame容器grid布局并使用Scrollbar滚动原理

本文介绍了如何使用Tkinter实现Frame容器的grid布局，并通过Scrollbar实现滚动效果。通过将Canvas作为父容器，使用滚动Canvas来滚动Frame，实现了在Frame中添加多个按钮，并通过Scrollbar进行滚动。同时，还介绍了更新Frame大小和绑定滚动按钮的方法，以及配置Scrollbar的相关参数。 ... [详细]

蜡笔小新 2023-12-09 07:37:04
main
python 终止函数命令_如何使“停止”按钮终止已经在Tkinter（Python）中运行的“启动”函数...

我用Tkinter制作了一个图形用户界面，有两个主按钮：“开始”和“停止”。请您就如何使用“停止”按钮终止“开始”按钮为以下代码调用的已运行功能提供建议 ... [详细]

蜡笔小新 2023-10-17 20:02:38
main
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
default
Python3中选择文件对话框的格式打开和保存图片

本文介绍了在Python3中如何使用选择文件对话框的格式打开和保存图片的方法。通过使用tkinter库中的filedialog模块的asksaveasfilename和askopenfilename函数，可以方便地选择要打开或保存的图片文件，并进行相关操作。具体的代码示例和操作步骤也被提供。 ... [详细]

蜡笔小新 2023-12-14 17:46:55
default
Spring源码解密之默认标签的解析方式分析

本文分析了Spring源码解密中默认标签的解析方式。通过对命名空间的判断，区分默认命名空间和自定义命名空间，并采用不同的解析方式。其中，bean标签的解析最为复杂和重要。 ... [详细]

蜡笔小新 2023-12-14 17:24:50
default
关于cuowu类的错误提示和使用AdjustmentListener的问题

本文讨论了一个关于cuowu类的问题，作者在使用cuowu类时遇到了错误提示和使用AdjustmentListener的问题。文章提供了16个解决方案，并给出了两个可能导致错误的原因。 ... [详细]

蜡笔小新 2023-12-13 22:09:56
default
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
default
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
range
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
range
解决python matplotlib画水平直线的问题

本文介绍了在使用python的matplotlib库画水平直线时可能遇到的问题，并提供了解决方法。通过导入numpy和matplotlib.pyplot模块，设置绘图对象的宽度和高度，以及使用plot函数绘制水平直线，可以解决该问题。 ... [详细]

蜡笔小新 2023-12-12 20:24:31
int
OpenMap教程4 – 图层概述

本文介绍了OpenMap教程4中关于地图图层的内容，包括将ShapeLayer添加到MapBean中的方法，OpenMap支持的图层类型以及使用BufferedLayer创建图像的MapBean。此外，还介绍了Layer背景标志的作用和OMGraphicHandlerLayer的基础层类。 ... [详细]

蜡笔小新 2023-12-09 19:26:56
ip
[echarts] 同指标对比柱状图相关的知识介绍及应用示例

本文由编程笔记小编为大家整理，主要介绍了echarts同指标对比柱状图相关的知识，包括对比课程通过率最高的8个课程和最低的8个课程以及全校的平均通过率。文章提供了一个应用示例，展示了如何使用echarts制作同指标对比柱状图，并对代码进行了详细解释和说明。该示例可以帮助读者更好地理解和应用echarts。 ... [详细]

蜡笔小新 2023-12-09 10:02:11
window
利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现

本文介绍了利用ARMA模型对平稳非白噪声序列进行建模的步骤及代码实现。首先对观察值序列进行样本自相关系数和样本偏自相关系数的计算，然后根据这些系数的性质选择适当的ARMA模型进行拟合，并估计模型中的位置参数。接着进行模型的有效性检验，如果不通过则重新选择模型再拟合，如果通过则进行模型优化。最后利用拟合模型预测序列的未来走势。文章还介绍了绘制时序图、平稳性检验、白噪声检验、确定ARMA阶数和预测未来走势的代码实现。 ... [详细]

蜡笔小新 2023-12-09 08:30:08

56修行者场_872

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章