朴素贝叶斯分类算法原理

作者：海峰2502853427 | 来源：互联网 | 2023-09-23 10:32

朴素贝叶斯分类算法原理在《通俗地理解贝叶斯公式（定理）》一节，我们基本认识了“贝叶斯定理”。在此基础之上，这一节我们将深入

朴素贝叶斯分类算法原理

在《通俗地理解贝叶斯公式&＃xff08;定理&＃xff09;》一节&＃xff0c;我们基本认识了“贝叶斯定理”。在此基础之上&＃xff0c;这一节我们将深入讲解“朴素贝叶斯算法”。

我们知道解决分类问题时&＃xff0c;需要根据他们各自的特征来进行判断&＃xff0c;比如区分“一对双胞胎不同之处”&＃xff0c;虽然他们看起来相似&＃xff0c;但是我们仍然可以根据细微的特征&＃xff0c;来区分他们&＃xff0c;并准确地叫出他们的名字。就像一句非常有哲理的话&＃xff0c;“世界上没有完全相同的两片树叶”&＃xff0c;因此被分类的事物会存在许多特征。

比如现在有 A1 和 A2 两个类&＃xff0c;其中 A1 具有 b、c 两个特征&＃xff0c;A2 具有 b、d 两个特征&＃xff0c;如果是你会怎么区分这两个类呢&＃xff1f;很简单看看是存在 c &＃xff0c;存在的就是 A1&＃xff0c;反之则是 A2。但是现实的情况要复杂的多&＃xff0c;比如 100 个 A1样本中有 80% 的样本具有特征 c&＃xff0c;而且剩余的 20% 具有了特征 d&＃xff0c;那么要怎么对它们分类呢&＃xff1f;其实只要多加判断还是可以分清&＃xff0c;不过要是纯手工分类&＃xff0c;那就恐怕得不偿失了。

多特征分类问题

统计学是通过搜索、整理、分析、描述数据等手段&＃xff0c;以达到推断、预测对象的本质&＃xff0c;统计学用到了大量的数学及其它学科的专业知识&＃xff0c;其应用范围几乎覆盖了社会科学和自然科学的各个领域。

下面我们使统计学的相关知识解决上述分类问题&＃xff0c;分类问题的样本数据大致如下所示&＃xff1a;

[特征 X1 的值,特征 X2 的值,特征 X3 的值,…,类别 A1]
[特征 X1 的值,特征 X2 的值,特征 X3的值,…,类别 A2]

解决思路&＃xff1a;这里我们先简单的采用 1 和 0 代表特征值的有无&＃xff0c;比如当 X1 的特征值等于 1 时&＃xff0c;则该样本属于 A1 的类别概率&＃xff1b;特征值 X2 值为 1 时&＃xff0c;该样本属于类别 A1 的类别的概率。依次类推&＃xff0c;然后最终算出该样本对于各个类别的概率值&＃xff0c;哪个概率值最大就可能是哪个类。

上述思路就是贝叶斯定理的典型应用&＃xff0c;如果使用条件概率表达&＃xff0c;如下所示&＃xff1a;
P(类别A1|特征X1&＃xff0c;特征X2&＃xff0c;特征X3&＃xff0c;…)

上述式子表达的意思是&＃xff1a;在特征 X1、X2、X3 等共同发生的条件下&＃xff0c;类别 A1 发生的概率&＃xff0c;也就是后验概率&＃xff0c;依据贝叶斯公式&＃xff0c;我们可以使用似然度求解后验概率&＃xff0c;某个特征的似然度如下&＃xff1a;
P(特征X1|类别A1&＃xff0c;特征X2&＃xff0c;特征X3&＃xff0c;…)

但是要收集对个特征值共同发生的情况&＃xff0c;这并不容易&＃xff0c;因此我们就需要使用“朴素”贝叶斯算法。

朴素贝叶斯算法

上一节我们已经了解了贝叶斯公式&＃xff0c;下面使用贝叶斯公式将多特征分类问题表达出来&＃xff0c;如下所示&＃xff1a;

在这里插入图片描述

数据集有时并不是很完全的&＃xff0c;总会因为某些原因存在一些缺失和收集不全的现象&＃xff0c;所以特征 x 越多这个问题就会越突出&＃xff0c;统计这些特征出现的概率就越困难。为了避免这一问题&＃xff0c;朴素贝叶斯算法做了一个假设&＃xff0c;即特征之间相互独立&＃xff0c;互不影响&＃xff0c;由此以来&＃xff0c;就可以简化为以下式子来求解某个特征的似然度&＃xff1a;

求解特征似然度

“朴素贝叶斯算法”利用后验概率进行预测&＃xff0c;其核心方法是通过似然度预测后验概率。在使用朴素贝叶斯算法解决分类问题&＃xff0c;其实就是不断提高似然度的过程&＃xff0c;你可以理解为后验概率正比于似然度&＃xff0c;如果提高了似然度&＃xff0c;那么也会达到提高后验概率的目的&＃xff0c;记做如下式子&＃xff1a;

求解后验概率

上述式子中∝表示正比于&＃xff0c;而∏则是连乘符号&＃xff08;即概率相乘&＃xff09;表示了不同特征同时发生的概率。

朴素贝叶斯优化方法

你也许会发现&＃xff0c;在学习过朴素贝叶斯的过程中&＃xff0c;我们并内提到“假设函数”和“损失函数”&＃xff0c;其实这并不难理解。朴素贝叶斯算法更像是一种统计方法&＃xff0c;通过比较不同特征与类之间的似然度关系&＃xff0c;最后把似然度最大的类作为预测结果。

每个类与特征的似然度是不同的&＃xff0c;也就是 P(xi|y) 不同&＃xff0c;因此某一类别中某个特征的概率越大&＃xff0c;我们就更容易对该类别进行分类。根据求解后验概率的公式&＃xff0c;可以得出以下优化方法&＃xff1a;

优化方法

此时将后验概率记做类别 y&＃xff0c;我们知道 P(y) 是一个固定的概率值&＃xff0c;因此要想让 y 取得最大值&＃xff0c;只能通过 P(xi|y) 实现&＃xff0c;不妨把被统计的数据看成是一张大表格&＃xff0c;朴素贝叶斯算法就是从中找到 P(xi|y) 值最大的那一项&＃xff0c;该项对应的 y 是什么&＃xff0c;则最终输出的预测结果就是什么。

推荐阅读

算法
Java面试题解析

本文详细介绍了Java编程语言中的核心概念和常见面试问题，包括集合类、数据结构、线程处理、Java虚拟机（JVM）、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题，帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]

蜡笔小新 2024-12-27 13:55:14
算法
新浪笔试题

1:有如下一段程序：packagea.b.c;publicclassTest{privatestaticinti0;publicintgetNext(){return ... [详细]

蜡笔小新 2024-12-27 19:32:17
算法
深入探讨DB2数据库性能优化策略

本文详细介绍了IBM DB2数据库在大型应用系统中的应用，强调其卓越的可扩展性和多环境支持能力。文章深入分析了DB2在数据利用性、完整性、安全性和恢复性方面的优势，并提供了优化建议以提升其在不同规模应用程序中的表现。 ... [详细]

蜡笔小新 2024-12-28 13:22:19
算法
深入理解KMP算法中的next数组：北大OJ 2406题解

本文详细探讨了KMP算法中next数组的构建及其应用，重点分析了未改良和改良后的next数组在字符串匹配中的作用。通过具体实例和代码实现，帮助读者更好地理解KMP算法的核心原理。 ... [详细]

蜡笔小新 2024-12-28 11:30:01
算法
SQL中UPDATE SET FROM语句的使用方法及应用场景

本文详细介绍了SQL中UPDATE SET FROM语句的使用方法，通过具体示例展示了如何利用该语句高效地更新多表关联数据。适合数据库管理员和开发人员参考。 ... [详细]

蜡笔小新 2024-12-28 10:22:16
算法
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
算法
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
算法
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
算法
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
算法
深入解析HTML中的标签及其应用场景

本文详细介绍了HTML中标签的使用方法和作用。通过具体示例，解释了如何利用标签为网页中的缩写和简称提供完整解释，并探讨了其在提高可读性和搜索引擎优化方面的优势。 ... [详细]

蜡笔小新 2024-12-27 17:05:37
算法
如何在Visual Studio Code中配置中文语言环境

本文介绍了如何在最新版本的Visual Studio Code中配置中文语言包，使用户能够更便捷地使用中文界面。文章详细描述了安装和配置步骤，并提供了相关补充说明。 ... [详细]

蜡笔小新 2024-12-27 17:00:20
算法
开源软件：新时代的商业机遇与挑战

在哈佛大学商学院举行的Cyberposium大会上，专家们深入探讨了开源软件的崛起及其对企业市场的影响。会议指出，开源软件不仅为企业提供了新的增长机会，还促进了软件质量的提升和创新。 ... [详细]

蜡笔小新 2024-12-27 14:49:56
算法
疫情下的银行数字化转型：民生场景服务的全面升级

新冠肺炎疫情期间，各大银行积极利用手机银行平台，满足客户在金融与生活多方面的需求。线上服务不仅激活了防疫相关的民生场景，还推动了银行通过互联网思维进行获客、引流与经营。本文探讨了银行在找房、买菜、打卡、教育等领域的创新举措。 ... [详细]

蜡笔小新 2024-12-27 14:15:52
算法
360SRC安全应急响应：从漏洞提交到修复的全过程

本文详细介绍了360SRC平台处理一起关键安全事件的过程，涵盖从漏洞提交、验证、排查到最终修复的各个环节。通过这一案例，展示了360在安全应急响应方面的专业能力和严谨态度。 ... [详细]

蜡笔小新 2024-12-27 11:10:05
算法
移动 UI 设计基础：打造简洁高效的用户界面

本章将深入探讨移动 UI 设计的核心原则，帮助开发者构建简洁、高效且用户友好的界面。通过学习设计规则和用户体验优化技巧，您将能够创建出既美观又实用的移动应用。 ... [详细]

蜡笔小新 2024-12-27 08:43:40

海峰2502853427

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章