jupyternotebookpytorch_PyTorch和优化器

作者：桑正青0V1 | 来源：互联网 | 2023-08-22 20:28

这段话来自非洲经济女学家DambisaMoyo的《DeadAid》❝种一棵树最好的时间是十年前，其次是现在。--DambisaMoyo❞❝只要你心里有信念࿰

这段话来自非洲经济女学家 Dambisa Moyo 的《Dead Aid》

❝
种一棵树最好的时间是十年前&＃xff0c;其次是现在。-- Dambisa Moyo
❞

❝
只要你心里有信念&＃xff0c;没有时间的差距&＃xff0c;什么时候开始都可以。
❞

❝
温馨提示&＃xff1a;代码可能一行过长&＃xff0c;可以左右滑动查看。
❞

这篇文章的主要内容会围绕着如何使用 「PyTorch」 的优化器来展开。同样地&＃xff0c;在这一篇文章中优化的函数还是一个简单的一元二次函数。

在我的 「机器学习」 系列文章中&＃xff0c;还有两篇文章是和本篇文章相关的。在这两篇文章中着重的是介绍了其中一种 「优化器」 &＃xff1a;「梯度下降法」。(其实就是一种优化函数的方法&＃xff0c;只不过被大家称为 「优化器」)

「梯度下降法」 这篇文章主要详细地阐述了它的数学原理&＃xff0c;随后使用一个简单的代码模拟了这个过程。

【链接】Gradient-Descent (梯度下降&＃xff0c;优化函数大法)

【链接】PyTorch 和自动求导

「PyTorch 和自动求导」 这篇文章主要详细地阐述了怎样使用「PyTorch」 的 API(Application Interface)完成自动求导这个动作&＃xff0c;毕竟求导是一件非常累人的事情。但是这篇文章并没有告诉大家怎样完成各个 「权重」 的自动更新&＃xff0c;而仅仅是求出了每个 「权重」 变量的导数而已。

那么&＃xff0c;在这一篇文章就算是作为上边提到的第二篇文章的一个补充&＃xff1a;使用 「PyTorch」 完成 「自动更新权重」 这个动作。

1 什么是优化器&＃xff1f;

在上边已经提到过了&＃xff0c;简单来说&＃xff0c;优化损失函数的方法就是优化器。而在这篇文章主要介绍 「梯度下降法」 这种优化器。其实&＃xff0c;其他还有一些 「优化器」&＃xff0c;基本上也都是在梯度下降法的基础上改进的。而且&＃xff0c;值得一提的是&＃xff1a;在 PyTorch 中优化器的接口形式都是一样的&＃xff0c;会使用梯度下降法的 API (Application Interface)后&＃xff0c;其他的也就会了。

2 目标函数

我们就使用一个一元二次函数作为我们优化的 「目标函数」 好啦。我就随便地写一个吧&＃xff0c;就用它了&＃xff01;

从这个式子就可以看出&＃xff0c;当且的时候达到最小值。

3 优化目标函数

需要注意的是&＃xff1a;我的代码都是在 Jupyter-Notebook 中运行的&＃xff0c;所以我直接运行一个 Cell 的时候能输出当前代码的运行结果。

「加载模块」

首先&＃xff0c;我加载了需要使用的模块&＃xff0c;并且把刚才我 「随便写的」 那个目标函数的图像画了出来。好&＃xff01;下边儿就是这个过程的代码了&＃xff01;当然&＃xff0c;还有图像也放了出来。

import torch import numpy as np import matplotlib.pyplot as plt plot_x &＃61; np.linspace(-5, 7, 100) plot_y &＃61; (plot_x - 1)**2 &＃43; 2 plt.plot(plot_x, plot_y) plt.show()

待会&＃xff0c;我们初始化的位置大概就是红色箭头指向的这个地方了&＃xff0c;这里是这个点的位置。

「初始化 x 和目标函数」

接下来&＃xff0c;初始化一个 x&＃xff0c;它是一个 torch.tensor 类型&＃xff0c;待会我们每一次迭代的过程中更新的对象就是 x&＃xff0c;并且最终 x 的值将会是最小值点的横坐标。x 是一个一维的向量&＃xff0c;并且这个向量只有一个元素&＃xff0c;初始值为。因为要对 x 求导的&＃xff0c;所以它应该是一个浮点类型的并且 「requires_grad&＃61;True」。

在这里我还会定义一个函数 f&＃xff0c;这个函数输入的值是目标函数的自变量&＃xff0c;返回值就是目标函数的值。

def f(x): return torch.square(x-1)&＃43;2 x &＃61; torch.tensor([6], dtype&＃61;torch.float32, requires_grad&＃61;True)

好啦&＃xff0c;让我们来看看&＃xff0c;执行了上边的代码后&＃xff0c;x 的具体状况。

「给定学习率和迭代次数」

在这儿&＃xff0c;我初始化两个变量&＃xff0c;其中 「lr」 代表学习率&＃xff0c;其实就是 「learning_rate」 。另外的 「iter」 代表迭代次数。另外还有两个列表&＃xff0c;「all_x」 用来存储每一次 x 更新后的值&＃xff0c;「all_loss」 用来存储每一次迭代后的损失的值。通过记录这些值&＃xff0c;最后我们就可以可视化出来算法运行过程中的情况了。

lr &＃61; 0.05 iter &＃61; 1000 all_x &＃61; [] all_loss &＃61; []

「初始化优化器」

我们只需要这样的一行代码就完成了优化器的初始化&＃xff0c;其中的 SGD 代表的就是 「梯度下降法」。可以注意到&＃xff0c;SGD() 这个对象的第一个参数是一个列表&＃xff0c;这个列表中需要放入我们需要在每一次迭代过程中更新的变量&＃xff0c;另外第二个参数是 lr&＃xff0c;这就是告诉它我们使用的学习率的大小。

optimizer &＃61; torch.optim.SGD([x], lr&＃61;lr)

「开始优化」

for i in range(iter): loss &＃61; f(x) all_x.append(x.item()) all_loss.append(loss.item()) # 第 1 行 optimizer.zero_grad() # 第 2 行 loss.backward() # 第 3 行 optimizer.step()

上边就是我们具体的优化过程的代码了。这将会迭代 「1000」 (iter 等于 1000) 次。用之前定义好的 f() 函数计算出损失的值 loss&＃xff0c;这个过程就已经自动构成了 「计算图」。随后我们把当前的 x 的值放进 「all_x」 中&＃xff0c;把当前的损失值放进 「all_loss」 中。使用 「item()」 方法会返回这个 「tensor」 中存储的值。

最重要的代码就是紧接着的下边的三行了&＃xff0c;在代码中我用注释标注了这三行代码。

先来看&＃xff0c;第 1 行&＃xff1a;这个操作就和我们对需要求导的 「torch.tensor」 类型的变量的 「grad」 属性使用 「zero_()」 方法是一样的效果。这个操作会把优化器的第 1 个参数中所有的变量的梯度值归零&＃xff0c;第 1 个参数就是刚才我们传入的列表(list)&＃xff0c;只不过我们这里的情况比较简单&＃xff0c;在列表(list)中只有一个变量&＃xff0c;当然&＃xff0c;你可以传入很多个。

再来看&＃xff0c;第 2 行&＃xff1a;这个操作时作用在 「loss」 上的&＃xff0c;因此会对 「loss」 相关的所有需要求导的变量进行求导操作。

最后&＃xff0c;第 3 行&＃xff1a;相信你已经知道了&＃xff0c;我们只求完导数还不行&＃xff0c;注意到&＃xff0c;当前这个操作时作用在 「optimizer」 上的&＃xff0c;所以&＃xff0c;它会把那些我们放进列表(list)中的变量进行更新&＃xff0c;这一步其实就是完成了下边儿这个非常眼熟的数学表达式所完成的工作。(数学表达式中的代表学习率)

注意这个数学表达式&＃xff0c;虽然我使用了偏微分符号&＃xff0c;由于我们这里只有一个自变量&＃xff0c;其实是和使用微分符号表达的意思是一样的。

第 3 行就是完成了使用 「自己」 减去 「学习率」 乘以 「目标函数对自己的导数」 然后用得到的这个值去更新 「自己」 的这样一个过程。

「绘制 x 的轨迹」

通过下边的代码&＃xff0c;就绘制出了所有 x 在更新过程中的路径&＃xff0c;最终 x 在最小值点的附近停了下来。

plot_x &＃61; np.linspace(-5, 7, 100) plot_y &＃61; (plot_x - 1)**2 &＃43; 2 plt.plot(plot_x, plot_y) x_scatter &＃61; np.array(all_x) y_scatter &＃61; np.array((x_scatter-1)**2 &＃43; 2) plt.scatter(x_scatter, y_scatter, color&＃61;&＃39;red&＃39;) plt.show()

「如何绘制 loss 损失变化图」

绘制 loss 的图&＃xff1a;我会生成从 「0」 开始一直到 「999」 这 「1000」 个数字&＃xff0c;这代表了每一次的迭代&＃xff0c;这 「1000」 个数字用于图像的 「横坐标」&＃xff0c;而它对应的 「纵坐标」 就是这每一次迭代过程中计算出的损失值的大小。

「绘制损失 loss 的变化」

loss_x &＃61; np.array(range(iter)) loss_y &＃61; np.array(all_loss) plt.plot(loss_x, loss_y) plt.show()

第 1 个 loss 轨迹图&＃xff1a;

通过第 1 个 loss 轨迹图&＃xff0c;我们会发现&＃xff0c;损失值一下子就变得很小了&＃xff0c;在后面很长的一段迭代过程中几乎都是没有什么变化的。因为横坐标的尺度太大了&＃xff0c;我们几乎看不出来损失的变化过程是怎样的&＃xff0c;所以我绘制第 2 个 loss 损失变化的图&＃xff0c;在第 2 个图中&＃xff0c;我将只绘制前 「50」 次迭代过程中 「loss」 的变化。

loss_x &＃61; np.array(range(iter)) loss_y &＃61; np.array(all_loss) plt.plot(loss_x[:50], loss_y[:50]) plt.show()

第 2 个 loss 轨迹图&＃xff1a;

「看看 x 最终的样子」

输出最后一次迭代后 x 的值&＃xff0c;可以发现&＃xff0c;它已经收敛到了最小值的位置。

推荐阅读

object
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
ip
logistic回归（线性和非线性）的开发笔记

本文由编程笔记#小编为大家整理，主要介绍了logistic回归（线性和非线性）相关的知识，包括线性logistic回归的代码和数据集的分布情况。希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-12-14 21:40:43
ip
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
process
【机器学习手册】日期和时区操作的重要性及应用

本文介绍了机器学习手册中关于日期和时区操作的重要性以及其在实际应用中的作用。文章以一个故事为背景，描述了学童们面对老先生的教导时的反应，以及上官如在这个过程中的表现。同时，文章也提到了顾慎为对上官如的恨意以及他们之间的矛盾源于早年的结局。最后，文章强调了日期和时区操作在机器学习中的重要性，并指出了其在实际应用中的作用和意义。 ... [详细]

蜡笔小新 2023-12-12 17:40:14
node.js
从零基础到精通的前台学习路线

随着互联网的发展，前台开发工程师成为市场上非常抢手的人才。本文介绍了从零基础到精通前台开发的学习路线，包括学习HTML、CSS、JavaScript等基础知识和常用工具的使用。通过循序渐进的学习，可以掌握前台开发的基本技能，并有能力找到一份月薪8000以上的工作。 ... [详细]

蜡笔小新 2023-12-10 20:05:15
merge
十大经典排序算法动图演示+Python实现

本文介绍了十大经典排序算法的原理、演示和Python实现。排序算法分为内部排序和外部排序，常见的内部排序算法有插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。文章还解释了时间复杂度和稳定性的概念，并提供了相关的名词解释。 ... [详细]

蜡笔小新 2023-12-10 19:28:59
merge
超级简单加解密工具的方案和功能

本文介绍了一个超级简单的加解密工具的方案和功能。该工具可以读取文件头，并根据特定长度进行加密，加密后将加密部分写入源文件。同时，该工具也支持解密操作。加密和解密过程是可逆的。本文还提到了一些相关的功能和使用方法，并给出了Python代码示例。 ... [详细]

蜡笔小新 2023-12-10 16:38:34
object
机器学习之贝叶斯垃圾邮件分类代码

本文介绍了贝叶斯垃圾邮件分类的机器学习代码，代码来源于https://www.cnblogs.com/huangyc/p/10327209.html，并对代码进行了简介。朴素贝叶斯分类器训练函数包括求p(Ci)和基于词汇表的p(w|Ci)。 ... [详细]

蜡笔小新 2023-12-10 12:24:15
process
机器学习算法代码实现——线性回归

前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的 ... [详细]

蜡笔小新 2023-10-17 19:58:52
process
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56
testing
使用FLASK REST API的机器学习模型

在本教程中，我们将看到如何使用FLASK制作第一个用于机器学习模型的RESTAPI。我们将从创建机器学习模型开始。然后，我们将看到使用Flask创建AP ... [详细]

蜡笔小新 2023-10-17 19:13:12
ip
【论文】ICLR 2020 九篇满分论文！！！

点击上方，选择星标或置顶，每天给你送干货！阅读大概需要11分钟跟随小博主，每天进步一丢丢来自：深度学习技术前沿 ... [详细]

蜡笔小新 2023-10-17 18:45:53
less
Android系统移植与调试之如何修改Android设备状态条上音量加减键在横竖屏切换的时候的显示于隐藏

本文介绍了如何修改Android设备状态条上音量加减键在横竖屏切换时的显示与隐藏。通过修改系统文件system_bar.xml实现了该功能，并分享了解决思路和经验。 ... [详细]

蜡笔小新 2023-12-13 13:12:05
object
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
ip
建立分类感知器二元模型对样本数据进行分类

本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型，使用最小二乘、Logistic回归等方法进行建模，考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数，使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]

蜡笔小新 2023-12-09 10:22:15

桑正青0V1

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章