梯度下降推导与优化算法的理解和Python实现

作者：手机用户2702935673 | 来源：互联网 | 2023-09-13 14:37

梯度下降推导与优化算法的理解和Python实现目录梯度下降算法推导优化算法的理解和Python实现SGDMomentumNestrovAdaGradRMSpropAdam算法的表现

梯度下降算法推导
优化算法的理解和Python实现
SGD
Momentum
Nestrov
AdaGrad
RMSprop
Adam
算法的表现

梯度下降算法推导

模型的算法就是为了通过模型学习&＃xff0c;使得训练集的输入获得的实际输出与理想输出尽可能相近。极大似然函数的本质就是衡量在某个参数下&＃xff0c;样本整体估计和真实情况一样的概率&＃xff0c;交叉熵函数的本质是衡量样本预测值与真实值之间的差距&＃xff0c;差距越大代表越不相似

1. 为什么要最小化损失函数而不是最大化模型模型正确识别的数目&＃xff1f;

我们将不同的损失函数都定义为损失函数&＃xff1a;&＃xff1b;因为最大化模型正确识别的数目的函数并不是关于的平滑函数&＃xff0c;而交叉熵等损失函数可以更容易地调整来使得模型进行训练&＃xff0c;然后再进行模型准确率的计算&＃xff0c;这是一种曲径折跃的解决问题的方式。

2. 如何推导梯度下降&＃xff1f;为什么梯度下降的更新方向是梯度的负方向&＃xff1f;

损失函数是一个包含多个参数的函数&＃xff0c;假设将损失函数简化为只包含两个参数的 , 如下图所示&＃xff0c;我们的目标就是找到函数的全局最小值。当然&＃xff0c;在实际工作中&＃xff0c;得到一组参数使得损失函数达到全局最小值是一种理想情况&＃xff0c;更一般的情况则是根据评价指标去评价模型是否可以得到一个我们能够接受的结果。

下面开始推导

假设在的方向移动 &＃xff0c;在的方向移动 &＃xff0c;那么的变化为&＃xff1a;

&＃xff08;1&＃xff09;

最小化损失函数简而言之就是损失函数的值随着时间越来越小&＃xff0c;可得目标函数 &＃xff0c;因为 &＃xff0c; &＃xff0c;写成向量表示&＃xff0c;设 &＃xff0c; &＃xff0c;&＃xff08;1&＃xff09;更新为&＃xff1a;

&＃xff08;2&＃xff09;

如何令呢&＃xff1f;假设令 &＃xff0c;那么&＃xff08;2&＃xff09;更新为&＃xff1a;

&＃xff08;3&＃xff09;

因为 &＃xff0c;那么可以看到&＃xff08;3&＃xff09;中的是符合优化目标的&＃xff0c;这从侧面也解释了为什么梯度下降的更新方向是梯度的负方向。

将上述过程重复多次&＃xff0c; 就会达到一个极小值&＃xff0c;这就是梯度下降的推导&＃xff0c;将其应用到神经网络模型中&＃xff0c;就是用梯度向量和学习率调整 &＃xff0c;所以&＃xff1a;

优化算法的理解和Python实现

在推导了梯度下降算法&＃xff0c;再来看各个优化算法也就不难了。引用【1】中总结的框架&＃xff0c;首先定义&＃xff1a;待优化参数&＃xff1a; &＃xff0c;目标函数&＃xff1a; &＃xff0c;初始学习率。

而后&＃xff0c;开始进行迭代优化。在每个epoch &＃xff1a;

计算目标函数关于当前参数的梯度&＃xff1a;
根据历史梯度计算一阶动量和二阶动量&＃xff1a;
计算当前时刻的下降梯度&＃xff1a;
根据下降梯度进行更新&＃xff1a;

掌握了这个框架&＃xff0c;你可以轻轻松松设计自己的优化算法。步骤3、4对于各个算法都是一致的&＃xff0c;主要的差别就体现在1和2上。

注&＃xff1a;下面的内容大部分取自引用【2】和【3】

SGD

随机梯度下降法不用多说&＃xff0c;每一个参数按照梯度的方向来减小以追求最小化损失函数&＃xff0c;梯度下降法目前主要分为三种方法&＃xff0c;区别在于每次参数更新时计算的样本数据量不同&＃xff1a;批量梯度下降法(BGD, Batch Gradient Descent)&＃xff0c;随机梯度下降法(SGD, Stochastic Gradient Descent)及小批量梯度下降法(Mini-batch Gradient Descent)。

SGD缺点

选择合适的learning rate比较困难 &＃xff0c;学习率太低会收敛缓慢&＃xff0c;学习率过高会使收敛时的波动过大
所有参数都是用同样的learning rate
SGD容易收敛到局部最优&＃xff0c;并且在某些情况下可能被困在鞍点

更新方式

Python实现

class SGD:def __init__(self, lr&＃61;0.01):self.lr &＃61; lrdef update(self, params, grads):for key in params.keys():params[key] -&＃61; self.lr * grads[key]

Momentum

在梯度下降的基础上加入了动量&＃xff0c;动量优化方法引入物理学中的动量思想&＃xff1a;当我们将一个小球从山上滚下来&＃xff0c;没有阻力时&＃xff0c;它的动量会越来越大&＃xff0c;但是如果遇到了阻力&＃xff0c;速度就会变小。momentum算法思想&＃xff1a;参数更新时在一定程度上保留之前更新的方向&＃xff0c;同时又利用当前batch的梯度微调最终的更新方向&＃xff0c;简言之就是通过积累之前的动量来加速当前的梯度。下面的式子中&＃xff0c; 表示动量&＃xff0c; 表示动量因子&＃xff0c;通常取值0.9或者近似值。

更新方式

Python实现

class Momentum:def __init__(self, lr&＃61;0.01, momemtum&＃61;0.9):self.lr &＃61; lrself.momemtum &＃61; momemtumself.v &＃61; Nonedef update(self, params, grads):if self.v is None:self.v &＃61; {}for key, val in params.items():self.v[key] &＃61; np.zeros_like(val)for key in params.keys():self.v[key] &＃61; self.momemtum * self.v[key] - self.lr * grads[key]params[key] &＃43;&＃61; self.v[key]

Nestrov

Nestrov也是一种动量更新的方式&＃xff0c;但是与普通动量方式不同的是&＃xff0c;Nestrov为了加速收敛&＃xff0c;提前按照之前的动量走了一步&＃xff0c;然后求导后按梯度再走一步。

更新方式

但是这样一来&＃xff0c;就给实现带来了很大的麻烦&＃xff0c;因为我们当前是在W的位置上&＃xff0c;无法求得W&＃43;αv处的梯度&＃xff0c;所以我们要进行一定改变。由于W与W&＃43;αv对参数来说没有什么区别&＃xff0c;所以我们可以假设当前的参数就是W&＃43;αv。就像下图&＃xff0c;按照Nestrov的本意&＃xff0c;在0处应该先按照棕色的箭头走αv到1&＃xff0c;然后求得1处的梯度&＃xff0c;按照梯度走一步到2。

现在&＃xff0c;我们假设当前的W就是1处的参数&＃xff0c;但是&＃xff0c;当前的动量v仍然是0处的动量&＃xff0c;那么更新方式就可以写作&＃xff1a;

为了便于理解&＃xff0c; W和v的更新可以看做是空间中向量相加的方式&＃xff0c;这样一来&＃xff0c;动量v就由0处的动量更新到了下一步的2处的动量。但是下一轮的W相应的应该在3处&＃xff0c;所以W还要再走一步αv&＃xff0c;即完整的更新过程应该如下所示&＃xff1a;

第二行的v是第一行更新的结果&＃xff0c;为了统一v的表示&＃xff0c;更新过程还可以写作&＃xff1a;

Python实现

class Nestrov:def __init__(self, lr&＃61;0.01, momentum&＃61;0.9):self.lr &＃61; lrself.momentum &＃61; momentumself.v &＃61; Nonedef update(self, params, grads):if self.v is None:self.v &＃61; {}for key, val in params.items():self.v[key] &＃61; np.zeros_like(val)for key in params.keys():self.v[key] &＃61; self.momentum * self.v[key] - self.lr * grads[key]params[key] &＃43;&＃61; self.momentum * self.v[key] - self.lr * grads[key]

但是根据我看到的各个框架的代码&＃xff0c;它们好像都把动量延迟更新了一步&＃xff0c;所以实现起来有点不一样&＃xff08;或者说是上下两个式子的顺序进行了颠倒&＃xff09;&＃xff0c;我也找不到好的解释&＃xff0c;但是在MNIST数据集上最终的结果要好于原来的实现。

Python实现

class Nestrov:def __init__(self, lr&＃61;0.01, momentum&＃61;0.9):self.lr &＃61; lrself.momentum &＃61; momentumself.v &＃61; Nonedef update(self, params, grads):if self.v is None:self.v &＃61; {}for key, val in params.items():self.v[key] &＃61; np.zeros_like(val)for key in params.keys():self.v[key] *&＃61; self.momentumself.v[key] -&＃61; self.lr * grads[key]params[key] &＃43;&＃61; self.momentum * self.momentum * self.v[key]params[key] -&＃61; (1 &＃43; self.momentum) * self.lr * grads[key]

Adagrad

前面介绍了几种动量法&＃xff0c;动量法旨在通过每个参数在之前的迭代中的梯度&＃xff0c;来改变当前位置参数的梯度&＃xff0c;在梯度稳定的地方能够加速更新的速度&＃xff0c;在梯度不稳定的地方能够稳定梯度。

而AdaGrad则是一种完全不同的思路&＃xff0c;它是一种自适应优化算法。它通过每个参数的历史梯度&＃xff0c;动态更新每一个参数的学习率&＃xff0c;使得每个参数的更新率都能够逐渐减小。前期梯度加大的&＃xff0c;学习率减小得更快&＃xff0c;梯度小的&＃xff0c;学习率减小得更慢些。

Adagrad缺点

仍需要手工设置一个全局学习率 , 如果设置过大的话&＃xff0c;会使regularizer过于敏感&＃xff0c;对梯度的调节太大
中后期&＃xff0c;分母上梯度累加的平方和会越来越大&＃xff0c;使得参数更新量趋近于0&＃xff0c;使得训练提前结束&＃xff0c;无法学习

更新方式

其中δ用于防止除零错

Python实现

class AdaGrad:def __init__(self, lr&＃61;0.01):self.lr &＃61; lrself.h &＃61; Nonedef update(self, params, grads):if self.h is None:self.h &＃61; {}for key, val in params.items():self.h[key] &＃61; np.zeros_like(val)for key in params.keys():self.h[key] &＃43;&＃61; grads[key] * grads[key]params[key] -&＃61; self.lr * grads[key] / (np.sqrt(self.h[key]) &＃43; 1e-7)

RMSprop

AdaGrad有个问题&＃xff0c;那就是学习率会不断地衰退。这样就会使得很多任务在达到最优解之前学习率就已经过量减小&＃xff0c;所以RMSprop采用了使用指数衰减平均来慢慢丢弃先前的梯度历史。这样一来就能够防止学习率过早地减小。

RMSprop特点

其实RMSprop依然依赖于全局学习率
RMSprop算是Adagrad的一种发展&＃xff0c;和Adadelta的变体&＃xff0c;效果趋于二者之间
适合处理非平稳目标——对于RNN效果很好

更新方式&＃xff1a;

Python实现

class RMSprop:def __init__(self, lr&＃61;0.01, decay_rate&＃61;0.99):self.lr &＃61; lrself.decay_rate &＃61; decay_rateself.h &＃61; Nonedef update(self, params, grads):if self.h is None:self.h &＃61; {}for key, val in params.items():self.h[key] &＃61; np.zeros_like(val)for key in params.keys():self.h[key] *&＃61; self.decay_rateself.h[key] &＃43;&＃61; (1 - self.decay_rate) * grads[key] * grads[key]params[key] -&＃61; self.lr * grads[key] / (np.sqrt(self.h[key]) &＃43; 1e-7)

Adam

Adam方法结合了上述的动量&＃xff08;Momentum&＃xff09;和自适应&＃xff08;Adaptive&＃xff09;&＃xff0c;同时对梯度和学习率进行动态调整。如果说动量相当于给优化过程增加了惯性&＃xff0c;那么自适应过程就像是给优化过程加入了阻力。速度越快&＃xff0c;阻力也会越大。

Adam首先计算了梯度的一阶矩估计和二阶矩估计&＃xff0c;分别代表了原来的动量和自适应部分

β_1 与 β_2 是两个特有的超参数&＃xff0c;一般设为0.9和0.999。

但是&＃xff0c;Adam还需要对计算出的矩估计进行修正

其中t是迭代的次数&＃xff0c;修正的原因在

Why is it important to include a bias correction term for the Adam optimizer for Deep Learning?

stats.stackexchange.com

这个问题中有非常详细的解释。简单来说就是由于m和v的初始值为0&＃xff0c;所以第一轮的时候会非常偏向第二项&＃xff0c;那么在后面计算更新值的时候根据β_1 与 β_2的初始值来看就会非常的大&＃xff0c;需要将其修正回来。而且由于β_1 与 β_2很接近于1&＃xff0c;所以如果不修正&＃xff0c;对于最初的几轮迭代会有很严重的影响。

最后就是更新参数值&＃xff0c;和AdaGrad几乎一样&＃xff0c;只不过是用上了上面计算过的修正的矩估计

Adam特点

Adam梯度经过偏置校正后&＃xff0c;每一次迭代学习率都有一个固定范围&＃xff0c;使得参数比较平稳。
结合了Adagrad善于处理稀疏梯度和RMSprop善于处理非平稳目标的优点
为不同的参数计算不同的自适应学习率
也适用于大多非凸优化问题——适用于大数据集和高维空间。

为了使得Python实现更加简洁&＃xff0c;将修正矩估计代入原式子&＃xff0c;也就是重新表达成只关于m和v的函数&＃xff0c;修改如下

python实现

class Adam:def __init__(self, lr&＃61;0.001, beta1&＃61;0.9, beta2&＃61;0.999):self.lr &＃61; lrself.beta1 &＃61; beta1self.beta2 &＃61; beta2self.iter &＃61; 0self.m &＃61; Noneself.v &＃61; Nonedef update(self, params, grads):if self.m is None:self.m, self.v &＃61; {}, {}for key, val in params.items():self.m[key] &＃61; np.zeros_like(val)self.v[key] &＃61; np.zeros_like(val)self.iter &＃43;&＃61; 1lr_t &＃61; self.lr * np.sqrt(1.0 - self.beta2**self.iter) / (1.0 - self.beta1**self.iter)for key in params.keys():self.m[key] &＃43;&＃61; (1 - self.beta1) * (grads[key] - self.m[key])self.v[key] &＃43;&＃61; (1 - self.beta2) * (grads[key]**2 - self.v[key])params[key] -&＃61; lr_t * self.m[key] / (np.sqrt(self.v[key]) &＃43; 1e-7)

算法的表现

各个算法在等高线的表现&＃xff0c;它们都从相同的点出发&＃xff0c;走不同的路线达到最小值点。可以看到&＃xff0c;Adagrad&＃xff0c;Adadelta和RMSprop在正确的方向上很快地转移方向&＃xff0c;并且快速地收敛&＃xff0c;然而Momentum和NAG先被领到一个偏远的地方&＃xff0c;然后才确定正确的方向&＃xff0c;NAG比momentum率先更正方向。SGD则是缓缓地朝着最小值点前进。

‍

欢迎扫码关注&＃xff1a;

推荐阅读

tree
普通树(每个节点可以有任意数量的子节点)级序遍历

普通树(每个节点可以有任意数量的子节点)级序遍历 ... [详细]

蜡笔小新 2024-11-14 18:53:26
tree
LeetCode 实战：寻找三数之和为零的组合

给定一个包含 n 个整数的数组，判断该数组中是否存在三个元素 a、b、c，使得 a + b + c = 0。找出所有满足条件且不重复的三元组。 ... [详细]

蜡笔小新 2024-11-15 18:39:48
io
Spring 高级教程（15）：Spring AOP（3）—— 使用注解配置切面（1）：方法执行前后的增强处理

本文介绍了如何在Spring框架中使用AspectJ实现AOP编程，重点讲解了通过注解配置切面的方法，包括方法执行前和方法执行后的增强处理。阅读本文前，请确保已安装并配置好AspectJ。 ... [详细]

蜡笔小新 2024-11-15 15:57:13
io
NC75 数组中唯一出现的两个数字

在一个整型数组中，除了两个数字只出现一次外，其他所有数字都出现了两次。编写一个程序来找出这两个只出现一次的数字。 ... [详细]

蜡笔小新 2024-11-15 15:19:11
tree
第14周实践项目（4）-验证平衡二叉树

问题**Copyright(c)2015,烟台大学计算机学院*Allrightsreserved.*文件名称：test.cpp*作者：王敏*完成日 ... [详细]

蜡笔小新 2024-11-15 11:49:00
command
使用Tkinter构建51Ape无损音乐爬虫UI

本文介绍了如何使用Python的内置模块Tkinter来构建一个简单的用户界面，用于爬取51Ape网站上的无损音乐百度云链接。虽然Tkinter入门相对简单，但在实际开发过程中由于文档不足可能会带来一些不便。 ... [详细]

蜡笔小新 2024-11-15 10:31:11
regex
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
io
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
tree
求助：C语言实现哈夫曼树编码与解码系统

最近遇到了一道关于哈夫曼树的编程题目，需要在下午之前完成。题目要求设计一个哈夫曼编码和解码系统，能够反复显示和处理多个项目，直到用户选择退出。希望各位大神能够提供帮助。 ... [详细]

蜡笔小新 2024-11-15 19:59:41
io
短视频app源码，Android开发底部滑出菜单

短视频app源码，Android开发底部滑出菜单首先依赖三方库implementationandroidx.appcompat:appcompat:1.2.0im ... [详细]

蜡笔小新 2024-11-15 15:35:01
io
CC2530之外部中断

在本次学习中，主要通过外部中断来控制LED的亮灭。首先，先查看相关电路图。由图可知，当CC2530端口1的0号引脚输出低电平时࿰ ... [详细]

蜡笔小新 2024-11-15 14:05:38
io
Google Colab 免费 GPU 使用指南（第一部分）

本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境，支持多种深度学习框架，并且提供免费的 GPU 计算资源。 ... [详细]

蜡笔小新 2024-11-14 13:42:03
io
Android Studio SQLite 数据库增删改查简单（代码参考）

一个建表一个执行crud操作建表代码importandroid.content.Context;importandroid.database.sqlite.SQLiteDat ... [详细]

蜡笔小新 2024-11-14 11:01:49
io
C#实现文件的压缩与解压

2019独角兽企业重金招聘Python工程师标准一、准备工作1、下载ICSharpCode.SharpZipLib.dll文件2、项目中引用这个dll二、文件压缩与解压共用类 ... [详细]

蜡笔小新 2024-11-14 10:37:34
io
Spring Data JdbcTemplate 入门指南

本文将介绍如何使用 Spring JdbcTemplate 进行数据库操作，包括查询和插入数据。我们将通过一个学生表的示例来演示具体步骤。 ... [详细]

蜡笔小新 2024-11-14 10:33:29

手机用户2702935673

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章