机器学习算法（LDA，CNN，LR）原理简述

作者：王乐668_802 | 来源：互联网 | 2023-09-17 14:55

转自：webary1.LDALDA是一种三层贝叶斯模型，三层分别为：文档层、主题层和词层。该模型基于如下假设：1

转自&＃xff1a;webary

1.LDA
LDA是一种三层贝叶斯模型&＃xff0c;三层分别为&＃xff1a;文档层、主题层和词层。该模型基于如下假设&＃xff1a;
1&＃xff09;整个文档集合中存在k个互相独立的主题&＃xff1b;
2&＃xff09;每一个主题是词上的多项分布&＃xff1b;
3&＃xff09;每一个文档由k个主题随机混合组成&＃xff1b;
4&＃xff09;每一个文档是k个主题上的多项分布&＃xff1b;
5&＃xff09;每一个文档的主题概率分布的先验分布是Dirichlet分布&＃xff1b;
6&＃xff09;每一个主题中词的概率分布的先验分布是Dirichlet分布。
文档的生成过程如下&＃xff1a;
1&＃xff09;对于文档集合M&＃xff0c;从参数为β的Dirichlet分布中采样topic生成word的分布参数φ&＃xff1b;
2&＃xff09;对于每个M中的文档m&＃xff0c;从参数为α的Dirichlet分布中采样doc对topic的分布参数θ&＃xff1b;
3&＃xff09;对于文档m中的第n个词语W_mn&＃xff0c;先按照θ分布采样文档m的一个隐含的主题Z_m&＃xff0c;再按照φ分布采样主题Z_m的一个词语W_mn。

因此整个模型的联合分布&＃xff0c;如下&＃xff1a;

对联合分布求积分&＃xff0c;去掉部分隐变量后&＃xff1a;

用间接计算转移概率可以消除中间参数θ和φ&＃xff0c;所以主题的转移概率化为&＃xff1a;

这样我们就可以通过吉布斯采样来进行每轮的迭代&＃xff0c;迭代过程即&＃xff1a;首先产生于一个均匀分布的随机数&＃xff0c;然后根据上式计算每个转移主题的概率&＃xff0c;通过累积概率判断随机数落在哪个new topic下&＃xff0c;更新参数矩阵&＃xff0c;如此迭代直至收敛。

2.CNN

2.1 多层感知器基础

单个感知器的结构示例如下&＃xff1a;

其中函数f为激活函数&＃xff0c;一般用sigmoid函数。
将多个单元组合起来并具有分层结构时&＃xff0c;就形成了多层感知器模型(神经网络)。下图是一个具有一个隐含层(3个节点)和一个单节点输出层的神经网络。

2.2 卷积神经网络

2.2.1 结构特征

在图像处理中&＃xff0c;往往把图像表示为像素的向量&＃xff0c;比如一个1000×1000的图像&＃xff0c;可以表示为一个〖10〗^6的向量。在上述的神经网络中&＃xff0c;如果隐含层数目与输入层一样&＃xff0c;即也是〖10〗^6时&＃xff0c;那么输入层到隐含层的参数数据为〖10〗^12&＃xff0c;这样就太多了&＃xff0c;基本没法训练。因此需要减少网络的参数。
卷积网络就是为识别二维形状而特殊设计的一个多层感知器&＃xff0c;这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。这些良好的性能是网络在有监督方式下学会的&＃xff0c;网络的结构主要有稀疏连接和权值共享两个特点&＃xff0c;包括如下形式的约束&＃xff1a;
1&＃xff09;特征提取。每一个神经元从上一层的局部接受域得到输入&＃xff0c;因而迫使它提取局部特征。一旦一个特征被提取出来&＃xff0c;只要它相对于其他特征的位置被近似地保留下来&＃xff0c;它的精确位置就变得没有那么重要了。
2&＃xff09;特征映射。网络的每一个计算层都是由多个特征映射组成的&＃xff0c;每个特征映射都是平面形式的&＃xff0c;平面中单独的神经元在约束下共享相同的权值集。
3&＃xff09;子抽样。每个卷积层后面跟着一个实现局部平均和子抽样的计算层&＃xff0c;由此特征映射的分辨率降低。这种操作具有使特征映射的输出对平移和其他形式的变形的敏感度下降的作用。
在一个卷积网络的所有层中的所有权值都是通过有监督训练来学习的&＃xff0c;此外&＃xff0c;网络还能自动的在学习过程中提取特征。
一个卷积神经网络一般是由卷积层和子抽样层交替组成。下图是一个例子&＃xff1a;

输入的图片经过卷积层&＃xff0c;子抽样层&＃xff0c;卷积层&＃xff0c;子抽样层之后&＃xff0c;再由一个全连接成得到输出。

2.2.2 卷积层

卷积层是通过权值共享实现的。共享权值的单元构成一个特征映射&＃xff0c;如下图所示。

在图中&＃xff0c;有3个隐层节点&＃xff0c;他们属于同一个特征映射。同种颜色的链接的权值是相同的&＃xff0c;这里仍然可以使用梯度下降的方法来学习这些权值&＃xff0c;只需要对原始算法做一些小的改动&＃xff0c;共享权值的梯度是所有共享参数的梯度的总和。

2.2.3 子抽样层

子抽样层通过局部感知实现。一般认为人对外界的认知是从局部到全局的&＃xff0c;而图像的空间联系也是局部的像素联系较为紧密&＃xff0c;而距离较远的像素相关性则较弱。因而&＃xff0c;每个神经元其实没有必要对全局图像进行感知&＃xff0c;只需要对局部进行感知&＃xff0c;然后在更高层将局部的信息综合起来就得到了全局的信息。如下图所示&＃xff1a;左图为全连接&＃xff0c;右图为局部连接。

3.LR
线性回归模型&＃xff0c;一般表达为h_θ (x)&＃61; θ^T X 形式&＃xff0c;输出域是整个实数域&＃xff0c;可以用来进行二分类任务&＃xff0c;但实际应用中对二分类问题人们一般都希望获的一个[0,1]范围的概率值&＃xff0c;比如生病的概率是0.9或者0.1&＃xff0c;sigmoid函数g(z)可以满足这一需求&＃xff0c;将线性回归的输出转换到[0,1]。

利用g(z)&＃xff0c;可以获取样本x属于类别1和类别0的概率p(y &＃61; 1 |x,θ)&＃xff0c;p(y &＃61; 0|x,θ)&＃xff0c;变成逻辑回归的形式&＃xff1a;

取分类阈值为0.5&＃xff0c;相应的决策函数为&＃xff1a;

取不同的分类阈值可以得到不同的分类结果&＃xff0c;如果对正例的判别准确性要求高&＃xff0c;可以选择阈值大一些&＃xff0c;比如 0.6&＃xff0c;对正例的召回要求高&＃xff0c;则可以选择阈值小一些&＃xff0c;比如0.3。
转换后的分类面&＃xff08;decision boundary&＃xff09;与原来的线性回归是等价的

3.1 参数求解

模型的数学形式确定后&＃xff0c;剩下就是如何去求解模型中的参数。统计学中常用的一种方法是最大似然估计&＃xff0c;即找到一组参数&＃xff0c;使得在这组参数下&＃xff0c;我们的数据的似然值&＃xff08;概率&＃xff09;越大。在逻辑回归模型中&＃xff0c;似然值可表示为&＃xff1a;

取对数可以得到对数似然值&＃xff1a;

另一方面&＃xff0c;在机器学习领域&＃xff0c;我们更经常遇到的是损失函数的概念&＃xff0c;其衡量的是模型预测的误差&＃xff0c;值越小说明模型预测越好。常用的损失函数有0-1损失&＃xff0c;log损失&＃xff0c;hinge损失等。其中log损失在单个样本点的定义为&＃xff1a;

定义整个数据集上的平均log损失&＃xff0c;我们可以得到&＃xff1a;

即在逻辑回归模型中&＃xff0c;最大化似然函数和最小化log损失函数实际上是等价的。对于该优化问题&＃xff0c;存在多种求解方法&＃xff0c;这里以梯度下降的为例说明。梯度下降(Gradient Descent)又叫最速梯度下降&＃xff0c;是一种迭代求解的方法&＃xff0c;通过在每一步选取使目标函数变化最快的一个方向调整参数的值来逼近最优值。基本步骤如下&＃xff1a;
选择下降方向&＃xff08;梯度方向&＃xff0c; &＃xff09;
选择步长&＃xff0c;更新参数
重复以上两步直到满足终止条件。

3.2 分类边界

知道如何求解参数后&＃xff0c;我们来看一下模型得到的最后结果是什么样的。很容易可以从sigmoid函数看出&＃xff0c;取0.5作为分类阈值&＃xff0c;当时&＃xff0c;y&＃61;1&＃xff0c;否则 y&＃61;0。是模型隐含的分类平面&＃xff08;在高维空间中&＃xff0c;一般叫做超平面&＃xff09;。所以说逻辑回归本质上是一个线性模型&＃xff0c;但这不意味着只有线性可分的数据能通过LR求解&＃xff0c;实际上&＃xff0c;可以通过特征变换的方式把低维空间转换到高维空间&＃xff0c;而在低维空间不可分的数据&＃xff0c;到高维空间中线性可分的几率会高一些。下面两个图的对比说明了线性分类曲线和非线性分类曲线&＃xff08;通过特征映射&＃xff09;。

左图是一个线性可分的数据集&＃xff0c;右图在原始空间中线性不可分&＃xff0c;但是在特征转换 [x1,x2]&＃61;>[x1,x2,x21,x22,x1x2] 后的空间是线性可分的&＃xff0c;对应的原始空间中分类边界为一条类椭圆曲线

3.3 Word2Vec

Word2Vec有两种网络模型&＃xff0c;分别为CBOW模型&＃xff08;Continuous Bag-of-Words Model&＃xff09;和Sikp-gram模型&＃xff08;Continuous Skip-gram Model&＃xff09;。

两个模型都包含三层&＃xff1a;输入层、投影层和输出层。其中&＃xff0c;CBOW模型是在已知当前词w(t)的上下文w(t-2)、w(t-1)、w(t&＃43;1)、w(t&＃43;2)的情况下来预测词w(t)&＃xff0c;Skip-gram模型则恰恰相反&＃xff0c;它是在已知当前词w(t)的情况下来预测当前词的上下文w(t-2)、w(t-1)、w(t&＃43;1)、w(t&＃43;2)。例如&＃xff0c;“今天/天气/好/晴朗”&＃xff0c;而当前词为“天气”。CBOW模型是预测“今天”、“好”、“晴朗”之间出现“天气”的概率&＃xff0c;而Skip-gram模型是预测“天气”的周围出现“今天”、“好”、“晴朗”三个词的概率。
CBOW模型通过优化如下的目标函数来求解&＃xff0c;目标函数为一个对数似然函数。

CBOW的输入为包含Context(w)中2c个词的词向量v(w)&＃xff0c;这2c个词向量在投影层累加得到输出层的输出记为X_w。输出层采用了Hierarchical Softmax的技术&＃xff0c;组织成一棵根据训练样本集的所有词的词频构建的Huffman树&＃xff0c;实际的词为Huffman树的叶子节点。通过长度为的路径可以找到词w&＃xff0c;路径可以表示成由0和1组成的串&＃xff0c;记为。Huffman数的每个中间节点都类似于一个逻辑回归的判别式&＃xff0c;每个中间节点的参数记为。那么&＃xff0c;对于CBOW模型来说&＃xff0c;有&＃xff1a;
那么&＃xff0c;目标函数为&＃xff1a;

那么通过随机梯度下降法更新目标函数的参数θ和X&＃xff0c;使得目标函数的值最大即可。
与CBOW模型类似&＃xff0c;Skip-gram通过优化如下的目标函数来求解。

其中&＃xff1a;

那么&＃xff0c;Skip-gram的目标函数为&＃xff1a;

通过随机梯度下降法更新目标函数的参数θ和v(w)&＃xff0c;使得目标函数的值最大即可。

推荐阅读

list
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
list
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
list
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
list
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
chat
深入浅出解读奇异值分解，助你轻松掌握核心概念

深入浅出解读奇异值分解，助你轻松掌握核心概念 ... [详细]

蜡笔小新 2024-11-03 15:12:45
const
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
js
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
format
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
format
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
match
图像相似度对比的多种方法

本文介绍了几种常用的图像相似度对比方法，包括直方图方法、图像模板匹配、PSNR峰值信噪比、SSIM结构相似性和感知哈希算法。每种方法都有其优缺点，适用于不同的应用场景。 ... [详细]

蜡笔小新 2024-11-13 11:04:56
string
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
list
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
js
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
shell
开机自启动的几种方式

0x01快速自启动目录快速启动目录自启动方式源于Windows中的一个目录，这个目录一般叫启动或者Startup。位于该目录下的PE文件会在开机后进行自启动 ... [详细]

蜡笔小新 2024-11-12 11:16:30
spring
阿里巴巴终面技术挑战：如何利用 UDP 实现 TCP 功能？

在阿里巴巴的技术面试中，技术总监曾提出一道关于如何利用 UDP 实现 TCP 功能的问题。当时回答得不够理想，因此事后进行了详细总结。通过与总监的进一步交流，了解到这是一道常见的阿里面试题。面试官的主要目的是考察应聘者对 UDP 和 TCP 在原理上的差异的理解，以及如何通过 UDP 实现类似 TCP 的可靠传输机制。 ... [详细]

蜡笔小新 2024-11-11 11:50:49

王乐668_802

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章