Pytorch自由载入部分模型参数并冻结

作者：半暖半夏半流年 | 来源：互联网 | 2023-09-25 16:17

Pytorch的load方法和load_state_dict方法只能较为固定的读入参数文件，他们要求读入的state_dict的key和Model.state_dict()的key

Pytorch的load方法和load_state_dict方法只能较为固定的读入参数文件，他们要求读入的state_dict的key和Model.state_dict()的key对应相等。

而我们在进行迁移学习的过程中也许只需要使用某个预训练网络的一部分，把多个网络拼和成一个网络，或者为了得到中间层的输出而分离预训练模型中的Sequential 等等，这些情况下。传统的load方法就不是很有效了。

例如，我们想利用Mobilenet的前7个卷积并把这几层冻结，后面的部分接别的结构，或者改写成FCN结构，传统的方法就不奏效了。

最普适的方法是：构建一个字典，使得字典的keys和我们自己创建的网络相同，我们再从各种预训练网络把想要的参数对着新的keys填进去就可以有一个新的state_dict了，这样我们就可以load这个新的state_dict，目前只能想到这个方法应对较为复杂的网络变换。

网上查“载入部分模型”，“冻结部分模型”一般都是只改个FC,根本没有用，初学的时候自己写state_dict也踩了一些坑，发出来记录一下。

一.载入部分预训练参数

我们先看看Mobilenet的结构

( 来源github,附带预训练模型mobilenet_sgd_rmsprop_69.526.tar）

class Net(nn.Module): def __init__(self): super(Net, self).__init__() def conv_bn(inp, oup, stride): return nn.Sequential( nn.Conv2d(inp, oup, 3, stride, 1, bias=False), nn.BatchNorm2d(oup), nn.ReLU(inplace=True) ) def conv_dw(inp, oup, stride): return nn.Sequential( nn.Conv2d(inp, inp, 3, stride, 1, groups=inp, bias=False), nn.BatchNorm2d(inp), nn.ReLU(inplace=True), nn.Conv2d(inp, oup, 1, 1, 0, bias=False), nn.BatchNorm2d(oup), nn.ReLU(inplace=True), ) self.model = nn.Sequential( conv_bn( 3, 32, 2), conv_dw( 32, 64, 1), conv_dw( 64, 128, 2), conv_dw(128, 128, 1), conv_dw(128, 256, 2), conv_dw(256, 256, 1), conv_dw(256, 512, 2), conv_dw(512, 512, 1), conv_dw(512, 512, 1), conv_dw(512, 512, 1), conv_dw(512, 512, 1), conv_dw(512, 512, 1), conv_dw(512, 1024, 2), conv_dw(1024, 1024, 1), nn.AvgPool2d(7), ) self.fc = nn.Linear(1024, 1000) def forward(self, x): x = self.model(x) x = x.view(-1, 1024) x = self.fc(x) return x

我们只需要前7层卷积，并且为了方便日后concate操作，我们把Sequential拆开，成为下面的样子

class Net(nn.Module): def __init__(self): super(Net, self).__init__() def conv_bn(inp, oup, stride): return nn.Sequential( nn.Conv2d(inp, oup, 3, stride, 1, bias=False), nn.BatchNorm2d(oup), nn.ReLU(inplace=True) ) def conv_dw(inp, oup, stride): return nn.Sequential( nn.Conv2d(inp, inp, 3, stride, 1, groups=inp, bias=False), nn.BatchNorm2d(inp), nn.ReLU(inplace=True), nn.Conv2d(inp, oup, 1, 1, 0, bias=False), nn.BatchNorm2d(oup), nn.ReLU(inplace=True), ) self.conv1 = conv_bn( 3, 32, 2) self.conv2 = conv_dw( 32, 64, 1) self.conv3 = conv_dw( 64, 128, 2) self.conv4 = conv_dw(128, 128, 1) self.conv5 = conv_dw(128, 256, 2) self.conv6 = conv_dw(256, 256, 1) self.conv7 = conv_dw(256, 512, 2) # 原来这些不要了 # 可以自己接后面的结构 ''' self.features = nn.Sequential( conv_dw(512, 512, 1), conv_dw(512, 512, 1), conv_dw(512, 512, 1), conv_dw(512, 512, 1), conv_dw(512, 512, 1), conv_dw(512, 1024, 2), conv_dw(1024, 1024, 1), nn.AvgPool2d(7),) self.fc = nn.Linear(1024, 1000) ''' def forward(self, x): x1 = self.conv1(x) x2 = self.conv2(x1) x3 = self.conv3(x2) x4 = self.conv4(x3) x5 = self.conv5(x4) x6 = self.conv6(x5) x7 = self.conv7(x6) #x8 = self.features(x7) #out = self.fc return (x1,x2,x3,x4,x4,x6,x7)

我们更具改过的结构创建一个net,看看他的state_dict和我们预训练文件的state_dict有啥区别

net = Net() #我的电脑没有GPU,他的参数是GPU训练的cudatensor,于是要下面这样转换一下 dict_trained = torch.load("mobilenet_sgd_rmsprop_69.526.tar",map_location=lambda storage, loc: storage)["state_dict"] dict_new = net.state_dict().copy() new_list = list (net.state_dict().keys() ) trained_list = list (dict_trained.keys() ) print("new_state_dict size: {} trained state_dict size: {}".format(len(new_list),len(trained_list)) ) print("New state_dict first 10th parameters names") print(new_list[:10]) print("trained state_dict first 10th parameters names") print(trained_list[:10]) print(type(dict_new)) print(type(dict_trained))

得到输出如下：

我们截断一半之后，参数由137变成65了，前十个参数看出，名字变了但是顺序其实没变。state_dict的数据类型是Odict,可以按照dict的操作方法操作。

new_state_dict size: 65 trained state_dict size: 137
New state_dict first 10th parameters names
[&＃8216;conv1.0.weight&＃8217;, &＃8216;conv1.1.weight&＃8217;, &＃8216;conv1.1.bias&＃8217;, &＃8216;conv1.1.running_mean&＃8217;, &＃8216;conv1.1.running_var&＃8217;, &＃8216;conv2.0.weight&＃8217;, &＃8216;conv2.1.weight&＃8217;, &＃8216;conv2.1.bias&＃8217;, &＃8216;conv2.1.running_mean&＃8217;, &＃8216;conv2.1.running_var&＃8217;]
trained state_dict first 10th parameters names
[&＃8216;module.model.0.0.weight&＃8217;, &＃8216;module.model.0.1.weight&＃8217;, &＃8216;module.model.0.1.bias&＃8217;, &＃8216;module.model.0.1.running_mean&＃8217;, &＃8216;module.model.0.1.running_var&＃8217;, &＃8216;module.model.1.0.weight&＃8217;, &＃8216;module.model.1.1.weight&＃8217;, &＃8216;module.model.1.1.bias&＃8217;, &＃8216;module.model.1.1.running_mean&＃8217;, &＃8216;module.model.1.1.running_var&＃8217;]

我们看出只要构建一个字典，使得字典的keys和我们自己创建的网络相同，我们在从各种预训练网络把想要的参数对着新的keys填进去就可以有一个新的state_dict了，这样我们就可以load这个新的state_dict，这是最普适的方法适用于所有的网络变化。

for i in range(65): dict_new[ new_list[i] ] = dict_trained[ trained_list[i] ] net.load_state_dict(dict_new)

还有别的情况，比如我们只是在后面加了一些层，没有改变原来网络层的名字和结构，可以用下面的简便方法：

loaded_dict = {k: loaded_dict[k] for k, _ in model.state_dict()}

二.冻结这几层参数

方法很多，这里用和上面方法对应的冻结方法

发现之前的冻结有问题，还是建议看一下 https://discuss.pytorch.org/t/how-the-pytorch-freeze-network-in-some-layers-only-the-rest-of-the-training/7088 或者 https://discuss.pytorch.org/t/correct-way-to-freeze-layers/26714 或者

对应的，在训练时候，optimizer里面只能更新requires_grad = True的参数，于是

optimizer = torch.optim.Adam( filter(lambda p: p.requires_grad, net.parameters(),lr) )

推荐阅读

default
React 表单验证：构建无第三方库的表单处理机制

本文将深入探讨如何在不依赖第三方库的情况下，使用 React 处理表单输入和验证。我们将介绍一种高效且灵活的方法，涵盖表单提交、输入验证及错误处理等关键功能。 ... [详细]

蜡笔小新 2024-12-24 15:48:48
default
深入解析Java枚举及其高级特性

本文详细介绍了Java枚举的概念、语法、使用规则和应用场景，并探讨了其在实际编程中的高级应用。所有相关内容已收录于GitHub仓库[JavaLearningmanual](https://github.com/Ziphtracks/JavaLearningmanual)，欢迎Star并持续关注。 ... [详细]

蜡笔小新 2024-12-22 14:46:52
list
图神经网络模型综述

本文综述了图神经网络（Graph Neural Networks, GNN）的发展，从传统的数据存储模型转向图和动态模型，探讨了模型中的显性和隐性结构，并详细介绍了GNN的关键组件及其应用。 ... [详细]

蜡笔小新 2024-11-28 13:27:43
list
精选10款Python框架助力并行与分布式机器学习

随着神经网络模型的不断深化和复杂化，训练这些模型变得愈发具有挑战性，不仅需要处理大量的权重，还必须克服内存限制等问题。本文将介绍10款优秀的Python框架，帮助开发者高效地实现分布式和并行化的深度学习模型训练。 ... [详细]

蜡笔小新 2024-11-20 19:44:05
header
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
list
MyBatis 动态 SQL 详解与应用

本文深入探讨 MyBatis 中动态 SQL 的使用方法，包括 if/where、trim 自定义字符串截取规则、choose 分支选择、封装查询和修改条件的 where/set 标签、批量处理的 foreach 标签以及内置参数和 bind 的用法。 ... [详细]

蜡笔小新 2024-12-27 16:20:10
php
Yii 实现阿里云短信发送

Yii 实现阿里云短信发送 ... [详细]

蜡笔小新 2024-12-27 15:22:37
version
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
runtime
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
list
Java多线程并发控制：解决相同key的线程互斥问题

本文探讨了在Java多线程环境下，如何确保具有相同key值的线程能够互斥执行并按顺序输出结果。通过优化代码结构和使用线程安全的数据结构，我们解决了线程同步问题，并实现了预期的并发行为。 ... [详细]

蜡笔小新 2024-12-25 14:15:29
php
新手指南：在Windows 10上搭建深度学习与PyTorch开发环境

本文详细记录了一名新手在Windows 10操作系统上搭建深度学习环境的过程，包括安装必要的软件和配置环境变量等步骤，旨在帮助同样初入该领域的读者避免常见的错误。 ... [详细]

蜡笔小新 2024-12-17 03:14:23
version
在Win10上利用VS2015构建Caffe2环境

本文详细介绍如何在Windows 10操作系统上通过Visual Studio 2015编译Caffe2深度学习框架的过程。包括必要的软件安装、环境配置以及常见问题的解决方法。 ... [详细]

蜡笔小新 2024-12-15 18:03:52
php
Python中实现长数据完全显示的方法

本文探讨了如何在Python中处理长数据的完全显示问题，包括numpy数组、pandas DataFrame以及tensor类型的完整输出设置。 ... [详细]

蜡笔小新 2024-12-02 11:17:26
php
尤洋：夸父AI系统——大规模并行训练的深度学习解决方案

自从AlexNet等模型在计算机视觉领域取得突破以来，深度学习技术迅速发展。近年来，随着BERT等大型模型的广泛应用，AI模型的规模持续扩大，对硬件提出了更高的要求。本文介绍了新加坡国立大学尤洋教授团队开发的夸父AI系统，旨在解决大规模模型训练中的并行计算挑战。 ... [详细]

蜡笔小新 2024-11-25 19:02:33
list
Google Colab 免费 GPU 使用指南（第一部分）

本文介绍了如何使用 Google Colab 的免费 GPU 资源进行深度学习应用开发。Google Colab 是一个无需配置即可使用的云端 Jupyter 笔记本环境，支持多种深度学习框架，并且提供免费的 GPU 计算资源。 ... [详细]

蜡笔小新 2024-11-14 13:42:03

半暖半夏半流年

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章