当前位置: 开发笔记 > 编程语言 > 正文

趣味深度学习系列（一）：深度学习技术中的“教师”与“学生”

作者：手机用户2502932551 | 来源：互联网 | 2023-08-19 18:52

老师，您辛苦了“师者，所以传道受业解惑也。”教师，是神圣而伟大的职业，倾其所能，教书育人，桃李遍

老师&＃xff0c;

您辛苦了

“师者&＃xff0c;所以传道受业解惑也。”

教师&＃xff0c;是神圣而伟大的职业&＃xff0c;倾其所能&＃xff0c;教书育人&＃xff0c;桃李遍开花。

今天是教师节&＃xff0c;首先祝所有的老师们节日快乐&＃xff01;

&＃xff08;图片源于网络&＃xff09;

提到深度学习、老师这两个关键词&＃xff0c;第一时间是不是想到的是站在讲台上&＃xff0c;写着复杂的损失函数和信息论的授课讲师&＃xff0c;亦或是教学视频里面&＃xff0c;带你劈哩叭啦一行一行敲代码的实践老师&＃xff1f;

感谢恩师之余&＃xff0c;你是否知道&＃xff0c;在深度学习的技术中&＃xff0c;有这样一个有趣的算法竟然也包含着teacher和student的奥义&＃xff1f;

不卖关子&＃xff0c;它就是&＃xff1a;

知识蒸馏&＃xff08;Distill&＃xff09;

一种既可以认为是迁移学习也可以认为是模型压缩的算法&＃xff0c;最早由 Hinton 在 2015 年提出&＃xff0c;不知道是不是也是受他多年教学生涯的启发呢。

化学课上的蒸馏&＃xff0c;是不是又想起了高中的化学老师

深度学习技术里的模型蒸馏&＃xff0c;虽然不是化学里面的概念&＃xff0c;但其实也是一个非常形象的过程&＃xff0c;在详细的技术介绍之前&＃xff0c;我们先通俗的理解一下这个概念。

模型蒸馏&＃xff0c;是指将一个复杂模型&＃xff08;teacher&＃xff09;所学习到的有效信息提取出来&＃xff0c;迁移到一个更简单的模型&＃xff08;student&＃xff09;中去&＃xff0c;这里就涉及到了“师”与“生”【知识传授】的概念。

我们都知道&＃xff0c;对神经网络来说&＃xff0c;模型结构越复杂&＃xff0c;参数越多&＃xff0c;网络能学习到的知识就越丰富&＃xff0c;效果也越好。但是过于复杂的神经网络&＃xff0c;它的运算量和资源消耗都是非常大的&＃xff0c;不便于在移动端的部署。

我们将复杂网络类比成是teacher&＃xff0c;teacher耗费大量的时间和精力&＃xff0c;终于习得了大量的知识。此时&＃xff0c;伟大的teacher将毕生所学中最精华的部分“蒸馏”和提炼出来&＃xff0c;毫无保留地传授给student网络&＃xff0c;能够让student 网络用很简单的结构&＃xff0c;就掌握teacher网络中最精华最有价值的知识&＃xff0c;从而达到逼近teacher的模型效果&＃xff0c;可谓是“浓缩的都是精华”。

这就是对模型蒸馏最通俗的解释。

经模型蒸馏而得到的student网络&＃xff0c;兼具结构简单、准确率高、运算量和资源消耗小等优点。模型蒸馏一般被归类到模型压缩算法中&＃xff0c;算是众多模型压缩算法中的一个&＃xff0c;在具体了解模型蒸馏之前&＃xff0c;我们一起来看看它的大家族模型压缩工具集吧。

飞桨模型压缩工具集PaddleSlim

除模型蒸馏外&＃xff0c;PaddleSlim还提供了模型剪裁、量化训练、轻量神经网络结构自动搜索等功能&＃xff0c;并且支持多种压缩策略的组合使用&＃xff0c;帮助您的模型减肥瘦身&＃xff01;

我们以MobileNetV1模型为Baseline&＃xff0c;在ImageNet 1000类分类任务上对PaddleSlim的压缩效果进行了实测&＃xff1a;

采用【ResNet50蒸馏训练&＃43;量化】的策略&＃xff0c;模型大小由17.0M压缩至4.8M&＃xff0c;实现了71.76%的压缩&＃xff0c;精度不但没有损失反而提升了1.38%&＃xff08;top5&＃xff09;和1.06%&＃xff08;top1&＃xff09;。
采用【剪裁-50% FLOPS&＃43;量化】的策略&＃xff0c;模型大小由17.0M压缩至2.3M&＃xff0c;实现了86.47%的压缩&＃xff0c;精度损失只有0.43%&＃xff08;top5&＃xff09;和1.71%&＃xff08;top1&＃xff09;。

详细数据如下&＃xff1a;

以MobileNet v2为Baseline&＃xff0c;基于模拟退火的自动剪枝策略和轻量级模型结构自动搜索功能Light-NAS在精度几乎无损的情况下&＃xff0c;FLOPS 减少了17%。详细数据如下&＃xff1a;

PaddleSlim压缩算法介绍

PaddleSlim提供了模型蒸馏、模型剪裁、量化训练、轻量神经网络结构自动搜索等多种压缩算法&＃xff0c;下面我们逐一地进行介绍。

2.1 模型蒸馏

在PaddleSlim工具包中&＃xff0c;支持两种模型蒸馏的方法。

(1) 传统的蒸馏方法

模型蒸馏的概念&＃xff0c;最早由Hinton 在 2015 年提出&＃xff0c;核心思想是用一个或多个训练好的 teacher&＃xff08;大模型&＃xff09;指导 student&＃xff08;小模型&＃xff09;进行训练&＃xff0c;在论文「Distilling the Knowledge in a Neural Network」中&＃xff0c;对于分类任务要学习的目标&＃xff0c;将图片实际的类别概率信息称为 hard target&＃xff08;只有真实类别对应的概率为 1&＃xff0c;其他为 0&＃xff09;&＃xff0c;而模型输出的类别概率信息称为 soft target&＃xff08;各个类别概率都为一个大于 0 的值&＃xff09;。

由于类别之间具有相关性&＃xff0c;softtarget 相比 hard target 具有更高的信息熵&＃xff0c;比如一张猫的图片&＃xff0c;在 soft target 中&＃xff0c;其分到狗的概率一般会大于分到汽车的概率&＃xff0c;而不是 hardtarget 中将它们都设置为 0&＃xff0c;导致没有区别。

使用大模型产生 softtarget 代替 hard target 能获得更多的信息和更小的梯度方差&＃xff0c;可以达到更好的性能。一般模型蒸馏的流程如下&＃xff0c;先训好一个大模型&＃xff0c;让后让小模型去拟合大模型产生的 soft target&＃xff0c;在蒸馏结束后&＃xff0c;一般还会使用真实的 label 信息进行 fine-tuning&＃xff0c;如下图所示&＃xff1a;

另外&＃xff0c;为了使 softtarget 中各个类别的概率值更加平滑&＃xff0c;文章中还引入了一个温度系数 T 的概念&＃xff0c;对大模型输出的概率值做一个平滑处理&＃xff0c;具体公式如下&＃xff1a;

T 一般被设置成一个大于 1 的数&＃xff0c;T值越大&＃xff0c;输出的概率值越平滑。

(2) 基于FSP的蒸馏方法

相比传统的蒸馏方法直接用小模型去拟合大模型产生的soft target&＃xff0c;论文「A Gift from Knowledge Distillation: FastOptimization, Network Minimization and Transfer Learning」尝试用小模型去拟合大模型不同层特征之间的转换关系&＃xff08;flow of the solution procedure&＃xff09;&＃xff0c;用一个 FSP 矩阵&＃xff08;特征的内积&＃xff09;来表示不同层特征之间的关系&＃xff0c;计算公式如下&＃xff1a;

大模型和小模型不同层之间分别获得多个 FSP 矩阵&＃xff0c;对于 Resnet 网络结构&＃xff0c;每个 stage 可产生一个 FSP 矩阵&＃xff0c;然后使用 L2 loss 让小模型的对应层 FSP 矩阵和大模型对应层的 FSP 矩阵尽量一致&＃xff0c;具体公式如下&＃xff1a;

基于FSP的蒸馏全过程如下图&＃xff1a;

FSP蒸馏方法的效果是优于传统蒸馏方法的。

通俗一点的解释是&＃xff0c;蒸馏的过程其实就是teacher&＃xff08;大模型&＃xff09;教 student&＃xff08;小模型&＃xff09;解决问题的过程。在教学的过程中&＃xff0c;传统蒸馏方法是teacher直接告诉student这道问题的答案&＃xff0c;让小模型记住&＃xff1b;而FSP蒸馏方法则是让student学习teacher在解决问题时的中间过程和方法。

正所谓“授人以鱼不如授人以渔”&＃xff0c;FSP蒸馏方法自然能取得更优的效果。

除了模型蒸馏之外&＃xff0c;PaddleSlim还提供了多种模型压缩算法

2.2 模型剪裁

支持通道均匀模型剪裁&＃xff08;uniform pruning&＃xff09;、基于敏感度的模型剪裁、基于进化算法的自动模型剪裁三种方式
支持VGG、ResNet、MobileNet等各种类型的网络
支持用户自定义剪裁范围

2.3 量化训练

a&＃xff1a;支持动态和静态两种量化训练方式

动态策略: 在推理过程中&＃xff0c;动态统计激活的量化参数。
静态策略: 在推理过程中&＃xff0c;对不同的输入&＃xff0c;采用相同的从训练数据中统计得到的量化参数。

b&＃xff1a;支持对权重全局量化和Channel-Wise量化

c&＃xff1a;支持以兼容Paddle Mobile的格式保存模型

2.4 轻量神经网络结构自动搜索

支持基于进化算法的轻量神经网络结构自动搜索&＃xff08;Light-NAS&＃xff09;

2.5 其它功能

支持配置文件管理压缩任务超参数
支持多种压缩策略组合使用
蒸馏和模型剪裁压缩过程支持checkpoints功能

传送门

PaddleSlim实战教程&＃xff1a;

https://github.com/PaddlePaddle/models/blob/v1.5.1/PaddleSlim/docs/usage.md

想与更多的深度学习开发者交流&＃xff0c;请加入飞桨官方QQ群&＃xff1a;796771754。

如果您想详细了解更多飞桨PaddlePaddle的相关内容&＃xff0c;请参阅以下文档。

官网地址&＃xff1a;https://www.paddlepaddle.org.cn

项目地址&＃xff1a;

https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleSlim

推荐阅读

metadata
深入解析WebP图片格式及其应用

随着互联网技术的发展，无论是PC端还是移动端，图片数据流量占据了很大比重。尤其在高分辨率屏幕普及的背景下，如何在保证图片质量的同时减少文件大小，成为了亟待解决的问题。本文将详细介绍Google推出的WebP图片格式，探讨其在实际项目中的应用及优化策略。 ... [详细]

蜡笔小新 2024-11-20 16:31:47
grid
[编程题] LeetCode上的Dynamic Programming(动态规划)类型的题目

继上次把backTracking的题目做了一下之后：backTracking，我把LeetCode的动态规划的题目又做了一下，还有几道比较难的Medium的题和Hard的题没做出来，后面会继续 ... [详细]

蜡笔小新 2024-11-26 14:31:10
int
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
int
实用浏览器插件与高效工具推荐

本文旨在介绍一系列提升工作效率的浏览器插件和实用小工具，帮助用户在日常工作中更加便捷高效。内容由原作者授权发布。 ... [详细]

蜡笔小新 2024-11-26 10:10:09
dagger
Android 开发框架整合：MVP + Retrofit + Dagger2 + RxAndroid 配置指南

本文将详细介绍如何配置并整合MVP架构、Retrofit网络请求库、Dagger2依赖注入框架以及RxAndroid响应式编程库，构建高效、模块化的Android应用。 ... [详细]

蜡笔小新 2024-11-24 20:16:02
require
Vue CLI 3 项目中使用 Pre-render SPA Plugin 进行预渲染

页面预渲染适用于主要包含静态内容的页面。对于依赖大量API调用的动态页面，建议采用SSR（服务器端渲染），如Nuxt等框架。更多优化策略可参见：https://github.com/HaoChuan9421/vue-cli3-optimization ... [详细]

蜡笔小新 2024-11-23 22:19:17
blob
【小白学习C++ 教程】二十三、如何安装和使用 C++ 标准库

【小白学习C++ 教程】二十三、如何安装和使用 C++ 标准库 ... [详细]

蜡笔小新 2024-11-19 19:30:06
int
MySQL InnoDB事务日志详解：Redo Log与Undo Log

本文详细介绍了MySQL InnoDB存储引擎中的Redo Log和Undo Log，探讨了它们的工作原理、存储方式及其在事务处理中的关键作用。 ... [详细]

蜡笔小新 2024-11-23 15:34:23
int
SSE图像算法优化系列三：超高速导向滤波实现过程纪要（欢迎挑战）

自从何凯明提出导向滤波后，因为其算法的简单性和有效性，该算法得到了广泛的应用，以至于新版的matlab都将其作为标准自带的函数之一了&#x ... [详细]

蜡笔小新 2024-11-23 10:46:33
int
DedeCMS 手机端站点配置与优化指南

本文详细介绍如何安装和配置DedeCMS的移动端站点，包括新版本安装、老版本升级、模板适配以及必要的代码修改，以确保移动站点的正常运行。 ... [详细]

蜡笔小新 2024-11-22 18:44:25
uri
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
config
CentOS 6.5环境下Redis 3.0.6的安装与配置

本文详细介绍了如何在CentOS 6.5系统上安装和配置Redis 3.0.6，包括必要的环境准备、软件包下载、编译安装及基本功能测试。 ... [详细]

蜡笔小新 2024-11-22 11:42:46
int
基于OpenCV和Python的边缘检测与四点变换实现

本文介绍了如何利用OpenCV库进行图像的边缘检测，并通过Canny算法提取图像中的边缘。随后，文章详细说明了如何识别图像中的特定形状（如矩形），并应用四点变换技术对目标区域进行透视校正。 ... [详细]

蜡笔小新 2024-11-22 11:31:52
int
七大策略降低云上MySQL成本

在全球经济放缓和通胀压力下，降低云环境中MySQL数据库的运行成本成为企业关注的重点。本文提供了一系列实用技巧，旨在帮助企业有效控制成本，同时保持高效运作。 ... [详细]

蜡笔小新 2024-11-22 10:13:40
split
深入探讨前端代码优化策略

本文深入讨论了前端开发中代码优化的关键技术，包括JavaScript、HTML和CSS的优化方法，旨在提升网页加载速度和用户体验。 ... [详细]

蜡笔小新 2024-11-21 10:57:01

手机用户2502932551

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章