pytorch梯度计算相关内容总结

作者：wwhh47123_829 | 来源：互联网 | 2023-08-10 12:37

一、梯度计算准备工作调用backward()函数前，叶子非叶子节点的grad属性均为none，无论是否设置了requires_gradTrue

一、梯度计算准备工作

调用backward()函数前&＃xff0c;叶子/非叶子节点的grad属性均为none&＃xff0c;无论是否设置了requires_grad&＃61;True&＃xff08;叶子节点&＃xff09;&＃xff0c;或者调用了retain_grad()&＃xff08;非叶子节点&＃xff09;&＃xff0c;非叶子节点不能设置requires_grad&＃61;True&＃xff0c;否则会报错&＃xff1a;“RuntimeError: you can only change requires_grad flags of leaf variables.”&＃xff09;。

叶子/非叶子节点定义&＃xff1a;

1.叶子节点&＃xff1a;

所有requires_grad为false的tensor都是叶子节点&＃xff0c;也即is_leaf属性返回true。
若tensor的requires_grad为true&＃xff0c;同时是由用户创建&＃xff0c;则该tensor为叶子节点。也即不是operation结果的tensor&＃xff0c;叶子节点的grad_fn为none。
由requires_grad为false的节点通过operation产生的节点还是叶子节点&＃xff0c;此时设置requires_grad为true&＃xff0c;不影响是否为叶子节点&＃xff0c;但会影响后续节点是否为叶子节点。猜想这么设计的原因是&＃xff1a;由于无法判断是否是由operation产生的节点&＃xff0c;因此通过设置requires_grad也就无法更新是否为叶子节点。

示例如下&＃xff1a;

>>> a &＃61; torch.randn((3, 4)) >>> a tensor([[-1.0351, -0.2712, 2.4718, 0.4248],[ 0.9309, 0.7676, -0.1888, -0.0586],[-0.4290, 0.2478, -0.0056, 0.8502]]) >>> b &＃61; torch.randn((3, 4)) >>> b tensor([[ 0.5519, 0.3557, 0.2577, -0.6338],[ 1.2905, 2.1761, -0.1334, -1.3477],[ 0.8308, 0.1957, 0.1915, 0.1244]]) >>> c &＃61; a &＃43; b >>> c.requires_grad False >>> c.is_leaf True >>> c.requires_grad &＃61; True >>> c.is_leaf True // c的requires_grad为true&＃xff0c;同时是由operation产生&＃xff0c;但是仍为叶子节点&＃xff0c;说明requires_grad状态的改变并不能影响是否为叶子节点。

2.非叶子节点

由requires_grad为true的节点通过operation产生&＃xff0c;同时operation是可以求导的操作&＃xff0c;否则仍为叶子节点。此处对于多元operation&＃xff0c;有一个输入是requires_grad为true的节点即可获得非叶子节点。

示例如下&＃xff1a;

>>> c tensor([[-0.4832, 0.0846, 2.7295, -0.2089],[ 2.2214, 2.9437, -0.3222, -1.4063],[ 0.4018, 0.4435, 0.1859, 0.9746]], requires_grad&＃61;True) >>> g &＃61; c > 0 >>> g tensor([[False, True, True, False],[ True, True, False, False],[ True, True, True, True]]) >>> g.is_leaf True >>> c tensor([[-0.4832, 0.0846, 2.7295, -0.2089],[ 2.2214, 2.9437, -0.3222, -1.4063],[ 0.4018, 0.4435, 0.1859, 0.9746]], requires_grad&＃61;True) >>> g &＃61; c.sum() >>> g tensor(7.5644, grad_fn&＃61;) >>> g.is_leaf False

叶子/非叶子节点获得grad的方法:

1.叶子节点

设置requires_grad为true

2.非叶子节点

调用retain_grad()。

仅叶子节点&＃xff0c;调用backward()后&＃xff0c;存在grad。

若某个节点的输入节点的requires_grad为True&＃xff0c;则该节点的grad_fn必不为none&＃xff0c;该节点的梯度就可以通过调用backward()自动计算。loss计算梯度依据的条件同样如此。

二、梯度计算相关内容

1.使用backward()计算梯度

调用backward()函数后&＃xff0c;

对于叶子节点&＃xff0c;若设置了requires_grad为true&＃xff0c;则可以获得梯度&＃xff0c;否则梯度为none。
对于非叶子节点&＃xff0c;若调用了retain_grad()&＃xff0c;则可以获得梯度&＃xff0c;否则梯度也为none。

若计算图中没有一个节点设置了requires_grad为true&＃xff0c;则经过loss函数计算的结果仅包含计算结果&＃xff0c;grad_fn为none&＃xff0c;此时调用backward()函数会出错&＃xff0c;错误提示信息如下&＃xff1a;

“RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn”

解决方法&＃xff1a;将计算图中任意一个节点&＃xff0c;设置为requires_grad为true&＃xff0c;或者调用retain_grad()&＃xff0c;并重新计算loss。

若仅设置requires_grad为true&＃xff0c;或者调用retain_grad()&＃xff0c;不重新计算loss&＃xff0c;loss的grad_fn还是none&＃xff0c;此时调用backward()&＃xff0c;还是会出现上面的错误。

2.调用backward()函数需要注意的问题&＃xff1a;

仅标量可以通过backward()计算梯度&＃xff0c;若为非标量调用backward()&＃xff0c;会出现以下错误&＃xff1a;“RuntimeError: grad can be implicitly created only for scalar outputs”
在调用backward()函数时需要将retain_graph设置为True&＃xff0c;否则梯度只能计算一次&＃xff0c;第二次再调用backward时&＃xff0c;会出现如下错误&＃xff1a;“RuntimeError: Trying to backward through the graph a second time, but the saved intermediate results have already been freed. Specify retain_graph&＃61;True when calling backward the first time.”
对于tensor可以使用.grad.zero_()对梯度清零。
在使用torch.tensor()初始化tensor时需要保证数据为float或者为复数类型&＃xff0c;否则无法设置requires_grad为True。错误提示如下&＃xff1a;“RuntimeError: Only Tensors of floating point and complex dtype can require gradients”。
在初始化tensor时如果是使用torch.Tensor初始化则没有requires_grad参数&＃xff0c;torch.Tensor是一个类&＃xff0c;是torch.FloatTensor的别名&＃xff0c;因此默认初始化数据为float32类型&＃xff0c;但是requires_grad需要单独设置。如果使用torch.tensor初始化&＃xff0c;则可以直接设置requires_grad这一参数&＃xff0c;但需要注意使用float类型数据&＃xff0c;torch.tensor是一个函数。

推荐阅读

require
pytorch Dropout过拟合的操作

这篇文章主要介绍了pytorchDropout过拟合的操作，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完 ... [详细]

蜡笔小新 2023-10-16 19:35:56
require
Spark实现高斯朴素贝叶斯模型的低配版

本文介绍了使用Spark实现低配版高斯朴素贝叶斯模型的原因和原理。随着数据量的增大，单机上运行高斯朴素贝叶斯模型会变得很慢，因此考虑使用Spark来加速运行。然而，Spark的MLlib并没有实现高斯朴素贝叶斯模型，因此需要自己动手实现。文章还介绍了朴素贝叶斯的原理和公式，并对具有多个特征和类别的模型进行了讨论。最后，作者总结了实现低配版高斯朴素贝叶斯模型的步骤。 ... [详细]

蜡笔小新 2023-12-10 21:42:37
command
安卓系统上位机搭配科大讯飞核心板AEC的评估方法

获取原始语音系统图使用matlab生成一个测试用的单频信号，1KHz，1Vrmsclcclearall;closeall;f1000;%定义信号频 ... [详细]

蜡笔小新 2024-09-30 19:06:04
include
CCFCSP推荐系统

此题有一个大坑id范围为1e9此题题意是按照同类按照价格大小从大到小输出，如果价格相等再按照id从小到大输出。#includeusin ... [详细]

蜡笔小新 2024-09-29 12:21:33
include
图像处理(7) : 边缘检测

边缘检测是图形图像处理、计算机视觉和机器视觉中的一个基本工具，通常用于特征提取和特征检测，旨在检测一张数字图像中有明显变化的边缘或者不连续的区域 ... [详细]

蜡笔小新 2024-09-28 20:28:40
require
阿里云大数据计算服务MaxCompute (原名 ODPS)

MaxCompute是阿里EB级计算平台，经过十年磨砺，它成为阿里巴巴集团数据中台的计算核心和阿里云大数据的基础服务。去年MaxCompute做了哪些工作，这些工作背后的原因是什 ... [详细]

蜡笔小新 2024-09-28 17:30:24
string
objc runtime 挂载

#import挂载对象所需要的参数（UIAlertView挂载对象）staticconstcharkRepresente ... [详细]

蜡笔小新 2024-09-28 16:28:32
string
Educational Codeforces Round 43 (Rated for Div. 2)

EducationalCodeforcesRound43(RatedforDiv.2)https:codeforces.comcontest976A ... [详细]

蜡笔小新 2024-09-28 14:07:52
require
DjangoCreateView中的get_inital无法正常工作

我有一个CreateView，我希望它被调用并填充初始数据：classStartGame(PermissionRequiredMixin ... [详细]

蜡笔小新 2024-09-27 10:18:08
command
开发笔记:在单独的JVM上执行新的JavaFX应用程序

篇首语：本文由编程笔记#小编为大家整理，主要介绍了在单独的JVM上执行新的JavaFX应用程序相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-27 08:36:44
node.js
使用pm2方便开启node集群模式

使用pm2方便开启node集群模式 ... [详细]

蜡笔小新 2024-09-26 15:00:24
require
最强python编辑器，play首发！

听说c4droid的作者与pydroid ... [详细]

蜡笔小新 2024-09-26 11:38:50
require
python绘图设置正交坐标等距_Python:线性代数机器学习背后的优化原理 (五十五)...

线性代数：机器学习背后的优化原理线性代数作为数学的一个分支，广泛应用于科学和工程中，掌握好线性代数对于理解和从事机器学习算法相关工作是很有 ... [详细]

蜡笔小新 2024-09-26 10:09:12
string
开发笔记:Java多线程深度探索

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Java多线程深度探索相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-25 13:40:24
string
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38

wwhh47123_829

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章