Python中怎么使用朴素贝叶斯进行垃圾短信识别

作者：波猫小丝992 | 来源：互联网 | 2023-08-04 08:35

这篇文章主要讲解了“Python中怎么使用朴素贝叶斯进行垃圾短信识别”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深

这篇文章主要讲解了“Python中怎么使用朴素贝叶斯进行垃圾短信识别”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python中怎么使用朴素贝叶斯进行垃圾短信识别”吧！

一、引子

现在的很多手机管理软件都有垃圾短信拦截的功能，很智能很贴心是不是
嗯~ o(￣▽￣)o
对于经常被垃圾短信骚扰的人来说，很是有用。(๑•̀ㅂ•́)و✧
但是很多的拦截软件在拦截到垃圾短信之后……又发个通知提示拦截到了垃圾短信╮（﹀_﹀）╭
好奇心害死猫，你告诉了我你拦截到了垃圾短信，我当然想知道你拦截的是什么垃圾短信了╮（╯＿╰）╭

二、分类与垃圾短信识别

机器学习按性质来看，可以分为三大类：

分类(监督)
回归(监督)
聚类(半监督)
垃圾短信通常用已标记的短信数据，对未知的短信进行判断，其属于机器学习中的分类性质。
在Python中有很多机器学习的模块，比如Sklearn、Tensorflow、Caffe等，可以很方便地调用一些机器学习的算法。

三、垃圾短信识别

嗯，直接上手干……(￣_,￣ )
80w训练数据集和20w测试数据集均来源于github上的一位小哥哥，在此谢过d=====(￣▽￣*)b

1、数据处理

嗯，先看看数据长啥样：

import pandas as pd
data = pd.read_csv(r"H:\RubbishMessage\data\80w.txt",encoding=&＃39;utf-8&＃39;,sep=&＃39;    &＃39;,header=None)
data.head()

Python中怎么使用朴素贝叶斯进行垃圾短信识别

最后一列为短信的内容，倒数第二列则是短信的类型，0表示正常短信，1表示垃圾短信。
然后，我们对短信内容按照不同的类型（正常短信和垃圾短信）进行分割和分词：

# 垃圾短信import jieba
spam = data[data[1] == 1]
spam[2] = spam[2].map(lambda x:&＃39; &＃39;.join(jieba.cut(x)))
spam.head()
# 正常短信
normal = data[data[1] == 0]
normal[2] = normal[2].map(lambda x:&＃39; &＃39;.join(jieba.cut(x)))
normal.head()

Python中怎么使用朴素贝叶斯进行垃圾短信识别

分别将不同类型分词后的短信保存为不同的文件：

spam.to_csv(&＃39;soam.csv&＃39;,encoding=&＃39;utf-8&＃39;,header=False,index=False,columns=[2])
normal.to_csv(&＃39;normal.csv&＃39;,encoding=&＃39;utf-8&＃39;,header=False,index=False,columns=[2])

2、模型选择和训练

在此我们没有选择Sklearn或是其他的深度学习库，而是选用NLTK自然语言处理库来进行贝叶斯分类。
导入模块：

import nltk.classify.util
from nltk.classify import NaiveBayesClassifier
from nltk.corpus import PlaintextCorpusReaderimport random

加载刚刚导出的短信文件：

加载短信语料库
message_corpus = PlaintextCorpusReader(&＃39;./&＃39;,[&＃39;soam.csv&＃39;,&＃39;normal.csv&＃39;])
all_message = message_corpus.words()

定义一个特征函数，用于生成特征：

def massage_feature(word,num_letter=1):
    return {&＃39;feature&＃39;:word[-num_letter:]}

对短信特征进行标记提取：

labels_name = ([(massage,&＃39;垃圾&＃39;) for massage in message_corpus.words(&＃39;soam.csv&＃39;)]+[(massage,&＃39;正常&＃39;) for massage in message_corpus.words(&＃39;normal.csv&＃39;)])
random.seed(7)
random.shuffle(labels_name)

训练并预测模型

from nltk.classify import accuracy as nltk_accuracy
featuresets = [(massage_feature(n),massage) for (n,massage) in labels_name]
train_set,test_set = featuresets[2000:],featuresets[:2000]
classifier = NaiveBayesClassifier.train(train_set)

最后，咱们看看预测的准确率怎么样：

print(&＃39;结果准确率：&＃39;,str(100*nltk_accuracy(classifier,test_set))+str(&＃39;%&＃39;))

Python中怎么使用朴素贝叶斯进行垃圾短信识别

感谢各位的阅读，以上就是“Python中怎么使用朴素贝叶斯进行垃圾短信识别”的内容了，经过本文的学习后，相信大家对Python中怎么使用朴素贝叶斯进行垃圾短信识别这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是编程笔记，小编将为大家推送更多相关知识点的文章，欢迎关注！

推荐阅读

random
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
loops
python解决CSF布料模拟滤波的批处理问题（解决获取多个点云数据las数据）

解决问题：1、批量读取点云las数据2、点云数据读与写出3、csf滤波分类参考：https:github.comsuyunzzzCSF论文题目ÿ ... [详细]

蜡笔小新 2024-11-12 11:32:15
loops
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
search
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
bit
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
php
使用多项式拟合分析淘宝双11销售趋势

根据天猫官方数据，2019年双11成交额达到2684亿元，再次刷新历史记录。本文通过多项式拟合方法，分析并预测未来几年的销售趋势。 ... [详细]

蜡笔小新 2024-11-12 16:57:26
tree
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
list
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
match
如何将Python与Excel高效结合：常用操作技巧解析

本文深入探讨了如何将Python与Excel高效结合，涵盖了一系列实用的操作技巧。文章内容详尽，步骤清晰，注重细节处理，旨在帮助读者掌握Python与Excel之间的无缝对接方法，提升数据处理效率。 ... [详细]

蜡笔小新 2024-11-11 15:18:30
random
Python错误重试让多少开发者头疼？高效解决方案出炉

### 优化后的摘要在处理 Python 开发中的错误重试问题时，许多开发者常常感到困扰。为了应对这一挑战，`tenacity` 库提供了一种高效的解决方案。首先，通过 `pip install tenacity` 安装该库。使用时，可以通过简单的规则配置重试策略。例如，可以设置多个重试条件，使用 `|`（或）和 `&`（与）操作符组合不同的参数，从而实现灵活的错误重试机制。此外，`tenacity` 还支持自定义等待时间、重试次数和异常处理，为开发者提供了强大的工具来提高代码的健壮性和可靠性。 ... [详细]

蜡笔小新 2024-11-11 10:33:20
random
使用Python代码高效生成大规模随机数据集（千万级）

使用Python代码高效生成大规模随机数据集（千万级） ... [详细]

蜡笔小新 2024-11-11 08:14:41
random
Python多线程编程技巧与实战应用详解

Python多线程编程技巧与实战应用详解 ... [详细]

蜡笔小新 2024-11-09 20:44:15
random
Pandas 散点图矩阵（scatter_matrix）绘图功能及其参数详解

通过使用 `pandas` 库中的 `scatter_matrix` 函数，可以有效地绘制出多个特征之间的两两关系。该函数不仅能够生成散点图矩阵，还能通过参数如 `frame`、`alpha`、`c`、`figsize` 和 `ax` 等进行自定义设置，以满足不同的可视化需求。此外，`diagonal` 参数允许用户选择对角线上的图表类型，例如直方图或密度图，从而提供更多的数据洞察。 ... [详细]

蜡笔小新 2024-11-09 12:03:42
config
使用Python和smtplib实现邮件发送功能

本文详细介绍了如何使用Python中的smtplib库来发送带有附件的邮件，并提供了完整的代码示例。作者：多测师_王sir，时间：2020年5月20日 17:24，微信：15367499889，公司：上海多测师信息有限公司。 ... [详细]

蜡笔小新 2024-11-12 12:21:27
random
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30

波猫小丝992

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章