当前位置: 开发笔记 > 前端 > 正文

（转）分类算法之—朴素贝叶斯分类

作者：肖筱童2502874877 | 来源：互联网 | 2023-08-07 07:14

原文地址0、写在前面的话我个人一直很喜欢算法一类的东西，在我看来算法是人类智慧的精华，其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中ÿ

原文地址 0、写在前面的话

我个人一直很喜欢算法一类的东西&＃xff0c;在我看来算法是人类智慧的精华&＃xff0c;其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中&＃xff0c;并解决了实际问题后&＃xff0c;那种快感更是我在其它地方体会不到的。

一直想写关于算法的博文&＃xff0c;也曾写过零散的两篇&＃xff0c;但也许是相比于工程性文章来说太小众&＃xff0c;并没有引起大家的兴趣。最近面临毕业找工作&＃xff0c;为了能给自己增加筹码&＃xff0c;决定再次复习算法方面的知识&＃xff0c;我决定趁这个机会&＃xff0c;写一系列关于算法的文章。这样做&＃xff0c;主要是为了加强自己复习的效果&＃xff0c;我想&＃xff0c;如果能将复习的东西用自己的理解写成文章&＃xff0c;势必比单纯的读书做题掌握的更牢固&＃xff0c;也更能触发自己的思考。如果能有感兴趣的朋友从中有所收获&＃xff0c;那自然更好。

这个系列我将其命名为“算法杂货铺”&＃xff0c;其原因就是这些文章一大特征就是“杂”&＃xff0c;我不会专门讨论堆栈、链表、二叉树、查找、排序等任何一本数据结构教科书都会讲的基础内容&＃xff0c;我会从一个“专题”出发&＃xff0c;如概率算法、分类算法、NP问题、遗传算法等&＃xff0c;然后做一个引申&＃xff0c;可能会涉及到算法与数据结构、离散数学、概率论、统计学、运筹学、数据挖掘、形式语言与自动机等诸多方面&＃xff0c;因此其内容结构就像一个杂货铺。当然&＃xff0c;我会竭尽所能&＃xff0c;尽量使内容“杂而不乱”。

1.1、摘要

贝叶斯分类是一类分类算法的总称&＃xff0c;这类算法均以贝叶斯定理为基础&＃xff0c;故统称为贝叶斯分类。本文作为分类算法的第一篇&＃xff0c;将首先介绍分类问题&＃xff0c;对分类问题进行一个正式的定义。然后&＃xff0c;介绍贝叶斯分类算法的基础——贝叶斯定理。最后&＃xff0c;通过实例讨论贝叶斯分类中最简单的一种&＃xff1a;朴素贝叶斯分类。

1.2、分类问题综述

对于分类问题&＃xff0c;其实谁都不会陌生&＃xff0c;说我们每个人每天都在执行分类操作一点都不夸张&＃xff0c;只是我们没有意识到罢了。例如&＃xff0c;当你看到一个陌生人&＃xff0c;你的脑子下意识判断TA是男是女&＃xff1b;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话&＃xff0c;其实这就是一种分类操作。

从数学角度来说&＃xff0c;分类问题可做如下定义&＃xff1a;

已知集合&＃xff1a; $C&＃61;\{y_1,y_2,...,y_n\}$

可以看到&＃xff0c;整个朴素贝叶斯分类分为三个阶段&＃xff1a;

第一阶段——准备工作阶段&＃xff0c;这个阶段的任务是为朴素贝叶斯分类做必要的准备&＃xff0c;主要工作是根据具体情况确定特征属性&＃xff0c;并对每个特征属性进行适当划分&＃xff0c;然后由人工对一部分待分类项进行分类&＃xff0c;形成训练样本集合。这一阶段的输入是所有待分类数据&＃xff0c;输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段&＃xff0c;其质量对整个过程将有重要影响&＃xff0c;分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段&＃xff0c;这个阶段的任务就是生成分类器&＃xff0c;主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计&＃xff0c;并将结果记录。其输入是特征属性和训练样本&＃xff0c;输出是分类器。这一阶段是机械性阶段&＃xff0c;根据前面讨论的公式可以由程序自动计算完成。

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类&＃xff0c;其输入是分类器和待分类项&＃xff0c;输出是待分类项与类别的映射关系。这一阶段也是机械性阶段&＃xff0c;由程序完成。

1.4.2、估计类别下特征属性划分的条件概率及Laplace校准

这一节讨论P(a|y)的估计。

由上文看出&＃xff0c;计算各个划分的条件概率P(a|y)是朴素贝叶斯分类的关键性步骤&＃xff0c;当特征属性为离散值时&＃xff0c;只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计P(a|y)&＃xff0c;下面重点讨论特征属性是连续值的情况。

当特征属性为连续值时&＃xff0c;通常假定其值服从高斯分布&＃xff08;也称正态分布&＃xff09;。即&＃xff1a;

$g(x,\eta ,\sigma )&＃61;\frac{1}{\sqrt{2\pi }\sigma }e^-\frac{(x-\eta)^2}{2\sigma^2}$

而 $P(a_k|y_i)&＃61;g(a_k,\eta_{y_i},\sigma_{y_i})$

因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差&＃xff0c;代入上述公式即可得到需要的估计值。均值与标准差的计算在此不再赘述。

另一个需要讨论的问题就是当P(a|y)&＃61;0怎么办&＃xff0c;当某个类别下某个特征项划分没有出现时&＃xff0c;就是产生这种现象&＃xff0c;这会令分类器质量大大降低。为了解决这个问题&＃xff0c;我们引入Laplace校准&＃xff0c;它的思想非常简单&＃xff0c;就是对没类别下所有划分的计数加1&＃xff0c;这样如果训练样本集数量充分大时&＃xff0c;并不会对结果产生影响&＃xff0c;并且解决了上述频率为0的尴尬局面。

1.4.3、朴素贝叶斯分类实例&＃xff1a;检测SNS社区中不真实账号

下面讨论一个使用朴素贝叶斯分类解决实际问题的例子&＃xff0c;为了简单起见&＃xff0c;对例子中的数据做了适当的简化。

这个问题是这样的&＃xff0c;对于SNS社区来说&＃xff0c;不真实账号&＃xff08;使用虚假身份或用户的小号&＃xff09;是一个普遍存在的问题&＃xff0c;作为SNS社区的运营商&＃xff0c;希望可以检测出这些不真实账号&＃xff0c;从而在一些运营分析报告中避免这些账号的干扰&＃xff0c;亦可以加强对SNS社区的了解与监管。

如果通过纯人工检测&＃xff0c;需要耗费大量的人力&＃xff0c;效率也十分低下&＃xff0c;如能引入自动检测机制&＃xff0c;必将大大提升工作效率。这个问题说白了&＃xff0c;就是要将社区中所有账号在真实账号和不真实账号两个类别上进行分类&＃xff0c;下面我们一步一步实现这个过程。

首先设C&＃61;0表示真实账号&＃xff0c;C&＃61;1表示不真实账号。

1、确定特征属性及划分

这一步要找出可以帮助我们区分真实账号与不真实账号的特征属性&＃xff0c;在实际应用中&＃xff0c;特征属性的数量是很多的&＃xff0c;划分也会比较细致&＃xff0c;但这里为了简单起见&＃xff0c;我们用少量的特征属性以及较粗的划分&＃xff0c;并对数据做了修改。

我们选择三个特征属性&＃xff1a;a1&＃xff1a;日志数量/注册天数&＃xff0c;a2&＃xff1a;好友数量/注册天数&＃xff0c;a3&＃xff1a;是否使用真实头像。在SNS社区中这三项都是可以直接从数据库里得到或计算出来的。

下面给出划分&＃xff1a;a1&＃xff1a;{a<&＃61;0.05, 0.05&＃61;0.2}&＃xff0c;a1&＃xff1a;{a<&＃61;0.1, 0.1&＃61;0.8}&＃xff0c;a3&＃xff1a;{a&＃61;0&＃xff08;不是&＃xff09;,a&＃61;1&＃xff08;是&＃xff09;}。

2、获取训练样本

这里使用运维人员曾经人工检测过的1万个账号作为训练样本。

3、计算训练样本中每个类别的频率

用训练样本中真实账号和不真实账号数量分别除以一万&＃xff0c;得到&＃xff1a;

$P(C&＃61;0)&＃61;8900/100000&＃61;0.89$

$P(C&＃61;1)&＃61;110/100000&＃61;0.11$

4、计算每个类别条件下各个特征属性划分的频率

$P(a_1<&＃61;0.05|C&＃61;0)&＃61;0.3$

$P(0.05<a_1<0.2|C&＃61;0)&＃61;0.5$

$P(a_1>0.2|C&＃61;0)&＃61;0.2$

$P(a_1<&＃61;0.05|C&＃61;1)&＃61;0.8$

$P(0.05<a_1<0.2|C&＃61;1)&＃61;0.1$

$P(a_1>0.2|C&＃61;1)&＃61;0.1$

$P(a_2<&＃61;0.1|C&＃61;0)&＃61;0.1$

$P(0.1<a_2<0.8|C&＃61;0)&＃61;0.7$

$P(a_2>0.8|C&＃61;0)&＃61;0.2$

$P(a_2<&＃61;0.1|C&＃61;1)&＃61;0.7$

$P(0.1<a_2<0.8|C&＃61;1)&＃61;0.2$

$P(a_2>0.2|C&＃61;1)&＃61;0.1$

$P(a_3&＃61;0|C&＃61;0)&＃61;0.2$

$P(a_3&＃61;1|C&＃61;0)&＃61;0.8$

$P(a_3&＃61;0|C&＃61;1)&＃61;0.9$

$P(a_3&＃61;1|C&＃61;1)&＃61;0.1$

5、使用分类器进行鉴别

下面我们使用上面训练得到的分类器鉴别一个账号&＃xff0c;这个账号使用非真实头像&＃xff0c;日志数量与注册天数的比率为0.1&＃xff0c;好友数与注册天数的比率为0.2。

$P(C&＃61;0)P(x|C&＃61;0)&＃61;P(C&＃61;0)P(0.05<a_1<0.2|C&＃61;0)P(0.1<a_2<0.8|C&＃61;0)P(a_3&＃61;0|C&＃61;0)&＃61;0.89*0.5*0.7*0.2&＃61;0.0623$

$P(C&＃61;1)P(x|C&＃61;1)&＃61;P(C&＃61;1)P(0.05<a_1<0.2|C&＃61;1)P(0.1<a_2<0.8|C&＃61;1)P(a_3&＃61;0|C&＃61;1)&＃61;0.11*0.1*0.2*0.9&＃61;0.00198$

可以看到&＃xff0c;虽然这个用户没有使用真实头像&＃xff0c;但是通过分类器的鉴别&＃xff0c;更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时&＃xff0c;朴素贝叶斯分类对个别属性的抗干扰性。

1.5、分类器的评价

虽然后续还会提到其它分类算法&＃xff0c;不过这里我想先提一下如何评价分类器的质量。

首先要定义&＃xff0c;分类器的正确率指分类器正确分类的项目占所有被分类项目的比率。

通常使用回归测试来评估分类器的准确率&＃xff0c;最简单的方法是用构造完成的分类器对训练数据进行分类&＃xff0c;然后根据结果给出正确率评估。但这不是一个好方法&＃xff0c;因为使用训练数据作为检测数据有可能因为过分拟合而导致结果过于乐观&＃xff0c;所以一种更好的方法是在构造初期将训练数据一分为二&＃xff0c;用一部分构造分类器&＃xff0c;然后用另一部分检测分类器的准确率。

转:https://www.cnblogs.com/tjucs/p/4701057.html

推荐阅读

html
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
html
解决getallheaders函数导致的500错误及8种服务器性能优化策略

本文探讨了解决getallheaders函数引起的服务器500错误的方法，并介绍八种有效的服务器性能优化技术，包括内存数据库的应用、Spark RDD的使用、缓存策略的实施、SSD的引入、数据库优化、IO模型的选择、多核处理策略以及分布式部署方案。 ... [详细]

蜡笔小新 2024-12-03 18:26:35
html
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
css
通过Web界面管理Linux日志的解决方案

本指南介绍了一种利用rsyslog、MariaDB和LogAnalyzer搭建集中式日志管理平台的方法，使用户可以通过Web界面查看和分析Linux系统的日志记录。此方案不仅适用于服务器环境，还提供了详细的步骤来确保系统的稳定性和安全性。 ... [详细]

蜡笔小新 2024-12-24 17:11:38
html
深入解析 Apache Flink 的保存点机制

在本周的白板演练中，Apache Flink 的 PMC 成员及数据工匠首席技术官 Stephan Ewen 深入探讨了如何利用保存点功能进行流处理中的数据重新处理、错误修复、系统升级和 A/B 测试。本文将详细解释保存点的工作原理及其应用场景。 ... [详细]

蜡笔小新 2024-12-24 16:57:24
html
提升Tumblr爬虫效率与功能

本文介绍了对之前开发的Tumblr爬虫脚本进行升级，整合了两个脚本的功能，实现了自动分页爬取博客内容，并支持配置文件以下载多个博客的不同格式文件。此外，还优化了图片下载逻辑。 ... [详细]

蜡笔小新 2024-12-24 16:29:06
html
技术变现之道：从日常工作中挖掘潜力

本文探讨了如何在日常工作中通过优化效率和深入研究核心技术，将技术和知识转化为实际收益。文章结合个人经验，分享了提高工作效率、掌握高价值技能以及选择合适工作环境的方法，帮助读者更好地实现技术变现。 ... [详细]

蜡笔小新 2024-12-24 15:21:23
html
科研单位信息系统中的DevOps实践与优化

本文探讨了某科研单位通过引入云原生平台实现DevOps开发和运维一体化，显著提升了项目交付效率和产品质量。详细介绍了如何在实际项目中应用DevOps理念，解决了传统开发模式下的诸多痛点。 ... [详细]

蜡笔小新 2024-12-24 11:46:45
html
丽江客栈选择问题

本文介绍了一道经典的算法题，题目涉及在丽江河边的n家特色客栈中选择住宿方案。两位游客希望住在色调相同的两家客栈，并在晚上选择一家最低消费不超过p元的咖啡店小聚。我们将详细探讨如何计算满足条件的住宿方案总数。 ... [详细]

蜡笔小新 2024-12-22 20:15:25
html
全面解析运维监控：白盒与黑盒监控及四大黄金指标

本文深入探讨了白盒和黑盒监控的概念，以及它们在系统监控中的应用。通过详细分析基础监控和业务监控的不同采集方法，结合四个黄金指标的解读，帮助读者更好地理解和实施有效的监控策略。 ... [详细]

蜡笔小新 2024-12-22 14:02:29
console
docker镜像重启_docker怎么启动镜像

docker镜像重启_docker怎么启动镜像dock ... [详细]

蜡笔小新 2024-12-20 16:34:52
console
大数据核心技术解析

本文深入探讨了大数据技术的关键领域，包括数据的收集、预处理、存储管理、以及分析挖掘等方面，旨在提供一个全面的技术框架理解。 ... [详细]

蜡笔小新 2024-12-03 12:31:21
console
使用R语言进行Foodmart数据的关联规则分析与可视化

本文探讨了如何利用R语言中的arules和arulesViz包对Foodmart数据集进行关联规则的挖掘与可视化。文章首先介绍了数据集的基本情况，然后逐步展示了如何进行数据预处理、规则挖掘及结果的图形化呈现。 ... [详细]

蜡笔小新 2024-11-24 19:13:01
console
知识图谱与图神经网络在金融科技中的应用探讨

本文详细介绍了融慧金科AI Lab负责人张凯博士在2020爱分析·中国人工智能高峰论坛上的演讲，探讨了知识图谱与图神经网络模型如何在金融科技领域发挥重要作用。 ... [详细]

蜡笔小新 2024-11-21 15:02:52
console
Sia (Siacoin/SC/云储币) 去中心化存储平台资源汇总

本文整理了关于Sia去中心化存储平台的重要网址和资源，旨在为研究者和用户提供全面的信息支持。 ... [详细]

蜡笔小新 2024-11-15 13:29:59

肖筱童2502874877

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章