当前位置: 开发笔记 > 编程语言 > 正文

机器学习（八）：CS229ML课程笔记（4）——生成学习，高斯判别分析，朴素贝叶斯

作者：打篮球的乔巴 | 来源：互联网 | 2023-07-18 08:09

到目前为止&＃xff0c;我们主要学习了学习算法模型&＃xff1a;得到最大似然估计值&＃xff1a;φj|y&＃61;1 的分子表示&＃xff0c;遍历所有样本&＃xff0c;寻找标签y&＃61;1

到目前为止&＃xff0c;我们主要学习了学习算法模型&＃xff1a;得到最大似然估计值&＃xff1a;

φj|y&＃61;1 的分子表示&＃xff0c;遍历所有样本&＃xff0c;寻找标签y&＃61;1也就是垃圾邮件中j词语出现的次数&＃xff0c;分母表示训练集合中垃圾邮件的总数。总的式子就表示在垃圾邮件中j词语出现的概率。

同理&＃xff0c;φj|y&＃61;0 表示在非垃圾邮件中j词语出现的概率。

φy表示垃圾邮件占所有样本样件总数的比例。

其中的

由于NIPS从未在垃圾邮件和正常邮件中出现过&＃xff0c;所以结果只能是0了。于是最后的后验概率&＃xff1a;

对于这样的情况&＃xff0c;我们可以采用拉普拉斯平滑&＃xff0c;是假设每个特征值都出现过一次&＃xff0c;对于未出现的特征&＃xff0c;我们赋予一个小的值而不是0。具体平滑方法为&＃xff1a;

假设离散随机变量取值为{1,2,···,k}&＃xff0c;原来的估计公式&＃xff08;某个结果出现的次数在总试验次数中的比例&＃xff09;为&＃xff1a;

使用拉普拉斯平滑后&＃xff0c;新的估计公式为&＃xff1a;

即每个k值出现次数加1&＃xff0c;分母总的加k&＃xff0c;类似于NLP中的平滑&＃xff0c;具体参考宗成庆老师的《统计自然语言处理》一书。

对于上述的朴素贝叶斯模型&＃xff0c;参数计算公式改为&＃xff1a;

example&＃xff1a;

A队和别人打比赛&＃xff0c;在过去的样本中&＃xff0c;A和B打了两次&＃xff0c;输了两次&＃xff0c;A和C打了两次&＃xff0c;输了两次&＃xff0c;A和D打了一次&＃xff0c;输了一次&＃xff0c;问现在A和E打赢得概率&＃xff1a;

如果不用拉普拉斯平滑算出来最后A和E打肯定输&＃xff0c;但是是不合常理的。我们进行平滑后的计算&＃xff1a;

P(y&＃61;1)&＃61; (赢的概率&＃xff09;/&＃xff08;总场数输&＃43;赢&＃xff09;

平滑就是假设已经输了一局赢了一局&＃xff0c;所以目前&＃xff1a;

P(y&＃61;1)&＃61; 0&＃43;1/5&＃43;1&＃43;1&＃61;1/7.

3.4 多项式事件模型&＃xff08;NB-MEM&＃xff08;multinomial event model&＃xff09;&＃xff0c;向量x表示一个邮件&＃xff09;

对 3.2 提到的NB-MBEM模型目前有很多的扩展。比如将每个分量多值化&＃xff0c;即将P&＃xff08;x|y&＃xff09;由伯努利分布扩展到多项式分布&＃xff1b;再比如将连续变量值离散化&＃xff08;分段表示&＃xff09;。

目前将介绍第一种&＃xff0c;也就是将P&＃xff08;x|y&＃xff09;由伯努利分布扩展到多项式分布。这是与多元伯努利事件模型&＃xff08;NB-MBEM&＃xff09;有较大区别的NB模型&＃xff0c;即多项式事件模型&＃xff08;multinomial event model&＃xff0c;NB-MEM&＃xff09;。

首先&＃xff0c;NB-MBEM中的特种向量x的每个分量代表词典中该索引上的词语在本文中是否出现过&＃xff0c;取值范围为{0,1}&＃xff0c;特征向量的长度为词典的大小&＃xff1b;而在NB-MEM中&＃xff0c;特征向量x的每个分量的值使文本中处于该分量的位置的词语在词典中的索引&＃xff0c;其取值范围是{1,2&＃xff0c;....|V|}.|V|表示词典的大小&＃xff0c;特征向量的长度为相应样例文本中词语的数目。

example&＃xff1a;

NB-MBEM:一篇文档的特征向量可能如下所示&＃xff0c;表示一封邮件中出现了a和buy这两个词&＃xff1a;

形式化表示为&＃xff1a;

m个训练样本表示为&＃xff1a; clip_image077[6]

clip_image078[6] clip_image079[6]

表示第i个样本中&＃xff0c;共有ni个词&＃xff0c;每个词在字典中的编号为 clip_image080[6] 。

那么我们仍然按照朴素贝叶斯的方法求得最大似然估计概率为

clip_image081[6]

其中P&＃xff08;y&＃xff09;表示是垃圾邮件的概率。在p&＃xff08;y&＃xff09;的前提下向你发送特殊关键词的概率。n表示的是邮件词的个数&＃xff0c;m是总样本数。

解得&＃xff0c;

clip_image082[6]

φk|y&＃61;1表示某人向你发送垃圾邮件时&＃xff0c;他们会选择垃圾邮件出现的下一个词是k的概率。分子表示在样本中词k出现在垃圾邮件的次数。分母表示样本邮件中垃圾邮件所有词的总数。

φk|y&＃61;0表示某人向你发送非垃圾邮件时&＃xff0c;他们会选择非垃圾邮件出现的下一个词是k的概率。

φy垃圾邮件占总样本的比例。

举个例子&＃xff1a;&＃xff08;http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971903.html&＃xff09;

X1	X2	X3	Y
1	2	-	1
2	1	-	0
1	3	2	0
3	3	3	1

此时|V|&＃61;3&＃xff0c;n1&＃61;n2&＃61;2&＃xff0c;n3&＃61;n4&＃61;3&＃xff0c;m为总试验次数。

假如邮件中只有a&＃xff0c;b&＃xff0c;c这三词&＃xff0c;他们在词典的位置分别是1,2,3&＃xff0c;前两封邮件都只有2个词&＃xff0c;后两封有3个词。

Y&＃61;1是垃圾邮件。

那么&＃xff0c;

clip_image084[6] &＃xff08;在y&＃61;1的情况下出现x1-x3特征的次数所占出现词总数的比例&＃xff09;

&＃xff08;在y&＃61;0的情况下出现x1-x3特征的次数所占出现词总数的比例&＃xff09;

clip_image088[6]

假如新来一封邮件为b&＃xff0c;c那么特征表示为{2,3}。

那么

clip_image090[6]

clip_image092

那么该邮件是垃圾邮件概率是0.6。

注意这个公式与朴素贝叶斯的不同在于这里针对整体样本求的 clip_image094 &＃xff0c;而朴素贝叶斯里面针对每个特征求的 clip_image096 &＃xff0c;而且这里的特征值维度是参差不齐的。

这里如果假如拉普拉斯平滑&＃xff0c;得到公式为&＃xff1a;

clip_image097[6]

表示每个k值至少发生过一次。注意这里分母加的是字典的总数&＃xff0c;表示这个词在这个字典中出现过一次。

另外朴素贝叶斯虽然有时候不是最好的分类方法&＃xff0c;但它简单有效&＃xff0c;而且速度快。

推荐阅读

html
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
sum
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
sum
深入浅出解读奇异值分解，助你轻松掌握核心概念

深入浅出解读奇异值分解，助你轻松掌握核心概念 ... [详细]

蜡笔小新 2024-11-03 15:12:45
express
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
include
Python 用凝聚层次聚类进行数据分组

本文主要参考《Python机器学习经典实例》在介绍凝聚层次聚类之前，我们需要先理解层次聚类（hierarchicalclustering）。层次聚类是一组聚类算法，通过不断地分 ... [详细]

蜡笔小新 2024-10-20 13:13:52
php
开源数据库与数据结构算法

本文介绍了多种开源数据库及其核心数据结构和算法，包括MySQL的B+树、MVCC和WAL，MongoDB的tokuDB和cola，boltDB的追加仅树和mmap，levelDB的LSM树，以及内存缓存中的一致性哈希。 ... [详细]

蜡笔小新 2024-11-14 12:53:50
express
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
express
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
bit
深入理解ASCII、ANSI、GB2312、UNICODE及UTF-8、UTF-16编码

本文回顾了作者初次接触Unicode编码时的经历，并详细探讨了ASCII、ANSI、GB2312、UNICODE以及UTF-8和UTF-16编码的区别和应用场景。通过实例分析，帮助读者更好地理解和使用这些编码。 ... [详细]

蜡笔小新 2024-11-13 07:33:27
php
《程序员的数学》：一本适合初学者的数学指南

结城浩（1963年7月出生），日本资深程序员和技术作家，居住在东京武藏野市。他开发了著名的YukiWiki软件，并在杂志上发表了大量程序入门文章和技术翻译作品。结城浩著有30多本关于编程和数学的书籍，其中许多被翻译成英文和韩文。 ... [详细]

蜡笔小新 2024-11-12 21:47:50
search
容联云亮相世界人工智能大会发布容犀机器人助力产业数字化转型

2021世界人工智能大会（“WAIC2021”）近日在上海开启，今年大会主题是“智联世界，众智成城”，容联云作 ... [详细]

蜡笔小新 2024-10-17 10:52:39
search
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
search
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
php
高清图解：神经网络、机器学习、数据科学一网打尽

|导|读BY：AI-Beetle完全图解人工智能、NLP、机器学习、深度学习、大数据！这份备忘单涵盖了上述领域几乎全部的知识点，并使用信息图、脑图等多种可视化方式呈现，设计精美，实 ... [详细]

蜡笔小新 2024-10-09 13:33:56
php
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59

打篮球的乔巴

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章