记录训练神经网络过程中常用的权值共享和不同层赋予不同学习率等方法

作者：匿名用户 | 来源：互联网 | 2023-10-12 09:25

权值共享 import torchimport torch.nn as nnclass model(nn.Module):def __init__(self):super(model,self).__

权值共享

import torch import torch.nn as nnclass model(nn.Module):def __init__(self):super(model,self).__init__()self.lstm &＃61; nn.LSTM(input_size &＃61; 10,hidden_size &＃61; 5)self.linear &＃61; nn.Linear(input_features &＃61; 5,out_features &＃61; 2)def forward(self,inputdata1,inputdata2):lstm_result1 &＃61; self.lstm (input_data1)lstm_result2 &＃61; self.lstm(inputdata2)output &＃61; self.linear(lstm_result1&＃43;lstm_result2)return output

注释&＃xff1a;在神经网络的训练过程中经常用到两层网络共享权值&＃xff0c;在上述代码片中&＃xff0c;定义神经网络时定义一个lstm模型和一个全连接层&＃xff0c;在前向计算中多次调用lstm层进行计算&＃xff0c;相当于神经网络模型中有两个lstm层&＃xff0c;即计算inputdata1和inputdata2的两个lstm共享权值。
参考&＃xff1a;https://www.cnblogs.com/sdu20112013/p/12132786.html

某些层参数不更新

在查询此类资料时&＃xff0c;在博客中看到模型层中添加了requires_grad &＃61; False后参数仍会训练的问题&＃xff0c;博主并给出了相关解决方法&＃xff0c;这里记录两个感觉使用方便的方法。
更多内容参考&＃xff1a;https://blog.csdn.net/guotong1988/article/details/79739775

import torch import torch.nn as nnclass model(nn.Module):def __init__(self):super(model,self).__init__()self.lstm &＃61; nn.LSTM(input_size &＃61; 10,hidden_size &＃61; 5)for p in self.parameters():p.requires_grad &＃61; Falseself.linear &＃61; nn.Linear(input_features &＃61; 5,out_features &＃61; 2)def forward(self,inputdata1,inputdata2):lstm_result1 &＃61; self.lstm (input_data1)lstm_result2 &＃61; self.lstm(inputdata2)output &＃61; self.linear(lstm_result1&＃43;lstm_result2)return output

注释&＃xff1a;在不需要参数更新的层后边添加如下代码行&＃xff1a;

for p in self.parameters():p.requires_grad &＃61; False

但是上述方法适用于模型中最初几层都不需训练&＃xff0c;顶层需要训练的情况&＃xff0c;如果出现需要训练和不需要训练的模型层交替出现的时候&＃xff0c;上述方法就无法使用。博主给出了使用范围更广的方法&＃xff1a;

import torch import torch.nn as nn from torch.nn import CrossEntropyLossclass model(nn.Module):def __init__(self):super(model,self).__init__()self.lstm1 &＃61; nn.LSTM(input_size &＃61; 10,hidden_size &＃61; 10,requires_grad &＃61; True)self.lstm2 &＃61; nn.LSTM(input_size &＃61; 10,hidden_size &＃61; 5,requires_grad &＃61; False)self.linear &＃61; nn.Linear(input_features &＃61; 5,out_features &＃61; 2,requires_grad &＃61; True)def forward(self,inputdata):lstm_result1 &＃61; self.lstm1(input_data)lstm_result2 &＃61; self.lstm(lstm_result1)output &＃61; self.linear(lstm_result1&＃43;lstm_result2)return output model &＃61; model() #人为构造输入和真实标签 input_data &＃61; torch.randn([1,10])#[1,10]代表输入一个样本&＃xff0c;该样本的向量是10维&＃xff0c;此处必须是二位数据 target &＃61; torch.tensor([1],dtype &＃61; torch.long)#输入一个样本时真实标签只有一个&＃xff0c;如果输入是[5,10]&＃xff0c;则真实标签就应该为5个,例如,torch.tensor([0,1,1,1,0])#模型计算&＃xff0c;反向传播 result &＃61; model(input_data) loss_fc &＃61; CrossEntropyLoss() loss &＃61; loss_fc(input_data,target) loss.backward()#优化函数优化 torch.optimizer.SGD(filter(lambda p:p.requires_grad &＃61; True,model.parameters(),lr &＃61; 0.01))

注释&＃xff1a;上述代码片在优化函数部分对参数进行过滤&＃xff0c;只选取requires_grad &＃61; True的参数进行优化更新。

为不同的层赋予不同的学习率

import torch import torch.nn as nn from torch.nn import CrossEntropyLossclass model(nn.Module):def __init__(self):super(model,self).__init__()self.lstm &＃61; nn.LSTM(input_size &＃61; 10,hidden_size &＃61; 10,requires_grad &＃61; True)self.linear &＃61; nn.Linear(input_features &＃61; 5,out_features &＃61; 2,requires_grad &＃61; True)def forward(self,inputdata):lstm_result &＃61; self.lstm(input_data)output &＃61; self.linear(lstm_result)return outputmodel &＃61; model()#人为构造输入和真实标签 input_data &＃61; torch.randn([1,10])#[1,10]代表输入一个样本&＃xff0c;该样本的向量是10维&＃xff0c;此处必须是二位数据 target &＃61; torch.tensor([1],dtype &＃61; torch.long)#输入一个样本时真实标签只有一个&＃xff0c;如果输入是[5,10]&＃xff0c;则真实标签就应该为5个,例如,torch.tensor([0,1,1,1,0])#模型计算&＃xff0c;反向传播 result &＃61; model(input_data) loss_fc &＃61; CrossEntropyLoss() loss &＃61; loss_fc(input_data,target) loss.backward()#使用优化函数优化过程中&＃xff0c;为不同的层赋予不同的学习率&＃xff0c; param_lstm &＃61; [p for p in model.lstm.parameters()] param_linear &＃61; [p for p in model.linear.parameters()] params &＃61; [{&＃39;params&＃39;:param_lstm,&＃39;lr&＃39;:0.1},{&＃39;params&＃39;:param_linear,&＃39;lr&＃39;:0.01}] torch.optimizer.SGD(params)

将两个模型参数的平均值赋予第三个模型

import torch import torch.nn as nn from collections import OrderedDict #创建两个模型 model1 &＃61; nn.Linear(10,10) model2 &＃61; nn.Linear(10,10)#获取两个模型的平均值 param_dict &＃61; {} for key in model1.state_dict.keys():#model1.state_dict()输出值为OrderedDict类型param_key &＃61; (model1.state_dict[key] &＃43; model2.state_dict[key]) / 2param_dict[key] &＃61; param_key#将两个模型的平均值转换成OrderedDict类型&＃xff0c;并赋予第三个模型 param_dict &＃61; OrderedDict(param_dict) model3 &＃61; nn.Linear(10,10)#三个模型的构造必须一致 model3.load_state_dict(param_dict)

输出模型中每个层的梯度

import torch import torch.nn as nn from torch.nn import CrossEntropyLossclass model(nn.Module):def __init__(self):super(model,self).__init__()self.lstm &＃61; nn.LSTM(input_size &＃61; 10,hidden_size &＃61; 10,requires_grad &＃61; True)self.linear &＃61; nn.Linear(input_features &＃61; 5,out_features &＃61; 2,requires_grad &＃61; True)def forward(self,inputdata):lstm_result &＃61; self.lstm(input_data)output &＃61; self.linear(lstm_result)return outputmodel &＃61; model()#人为构造输入和真实标签 input_data &＃61; torch.randn([1,10])#[1,10]代表输入一个样本&＃xff0c;该样本的向量是10维&＃xff0c;此处必须是二位数据 target &＃61; torch.tensor([1],dtype &＃61; torch.long)#输入一个样本时真实标签只有一个&＃xff0c;如果输入是[5,10]&＃xff0c;则真实标签就应该为5个,例如,torch.tensor([0,1,1,1,0])#模型计算&＃xff0c;反向传播 result &＃61; model(input_data) loss_fc &＃61; CrossEntropyLoss() loss &＃61; loss_fc(input_data,target) loss.backward()#输出不同层的梯度 print(model.lstm.grad) print(model.linear.grad)#细分输出不同层权值和偏置的梯度 print(model.lstm.weight.grad) print(model.lstm.bias.grad) print(model.linear.weight.grad) print(model.linear.bias.grad)

查看模型梯度参考&＃xff1a;https://zhuanlan.zhihu.com/p/36121066
后续还需了解如何直接为某层赋予一定的梯度。

推荐阅读

const
Python全栈之旅：SQLAlchemy ORM中的外键与关系

本文探讨了SQLAlchemy ORM框架中如何利用外键和关系（relationship）来建立表间联系，简化复杂的查询操作。通过示例代码详细解释了relationship的定义、使用方法及其与外键的相互作用。 ... [详细]

蜡笔小新 2024-11-27 11:20:01
import
Windows Terminal 自定义配置：提升 PowerShell 7 使用体验

本文将指导你如何通过自定义配置，使 Windows Terminal 中的 PowerShell 7 更加高效且美观。我们将移除默认的广告和提示符，设置快捷键，并添加实用的别名和功能。 ... [详细]

蜡笔小新 2024-11-28 07:25:46
process
JSP基础入门指南

本文介绍了JSP的基本概念、常用标签及其功能，并通过示例详细说明了如何在JSP页面中使用Java代码。 ... [详细]

蜡笔小新 2024-11-26 18:52:31
import
Java代理模式详解：静态代理、JDK动态代理与Cglib动态代理

本文详细介绍了Java中的代理模式，包括静态代理、JDK动态代理和Cglib动态代理的实现方式。通过一个火车票销售系统的实例，对比分析了三种代理模式的特点及其应用场景。 ... [详细]

蜡笔小新 2024-11-28 00:09:29
process
Flink与Kafka集成时事务频繁失败及解决方案

本文探讨了在使用Apache Flink向Kafka发送数据过程中遇到的事务频繁失败问题，并提供了详细的解决方案，包括必要的配置调整和最佳实践。 ... [详细]

蜡笔小新 2024-11-27 20:17:44
const
拖拉切割直线

拖拉切割直线 ... [详细]

蜡笔小新 2024-11-27 19:20:38
const
寻找子树中值小于自身节点的最大数量

本文介绍了一种算法，用于在一个给定的二叉树中找到一个节点，该节点的子树包含最大数量的值小于该节点的节点。如果存在多个符合条件的节点，可以选择任意一个。 ... [详细]

蜡笔小新 2024-11-27 18:08:54
import
HTML 手风琴效果实现

本文详细介绍了如何使用 HTML 和 CSS 实现一个具有动画效果的手风琴组件，包括代码示例和实现原理。 ... [详细]

蜡笔小新 2024-11-27 16:50:20
sum
深入解析Android Activity生命周期

本文详细探讨了Android中Activity的生命周期，通过实例代码和详细的步骤说明，帮助开发者更好地理解和掌握Activity各个阶段的行为。 ... [详细]

蜡笔小新 2024-11-27 03:28:32
import
Python - 合并具有相同值的字典键

本文介绍如何使用Python编程语言合并字典中具有相同集合值的键，并提供两种实现方法。 ... [详细]

蜡笔小新 2024-11-26 16:26:06
const
webpack js兼容性处理

index.js全部js兼容性处理。js内引入babelpolyfill全部js兼容性处理。babelpolyfillimportbabelpolyfill;constadd ... [详细]

蜡笔小新 2024-11-25 16:44:57
c语言
Lua脚本深入解析：元表与元方法的应用

本文探讨了Lua中元表和元方法的使用，通过具体的代码示例展示了如何利用这些特性来实现类似C语言中的运算符重载功能。 ... [详细]

蜡笔小新 2024-11-27 19:31:10
main
抽象工厂模式 c++

抽象工厂模式包含如下角色：AbstractFactory：抽象工厂ConcreteFactory：具体工厂AbstractProduct：抽象产品Product：具体产品https ... [详细]

蜡笔小新 2024-11-27 13:21:30
blob
CSS模块化命名

CSS模块化命名 ... [详细]

蜡笔小新 2024-11-25 16:58:20
const
深入解析 cache-content-type 和 mime-types 的应用与优化

本文介绍了两个重要的Node.js库——cache-content-type和mime-types，它们在处理HTTP响应头时非常有用。cache-content-type是基于mime-types构建的，并且实现了缓存机制以提高性能。 ... [详细]

蜡笔小新 2024-11-25 16:51:02

匿名用户

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章