训练ViT和MAE减少一半计算量！Sea和北大提出新优化器Adan：深度模型都能用！

作者：半路出家者 | 来源：互联网 | 2023-09-07 11:48

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达点击进入—CV微信技术交流群转载自：新智元|编辑：LRS

点击下方卡片&＃xff0c;关注“CVer”公众号

AI/CV重磅干货&＃xff0c;第一时间送达

点击进入—> CV 微信技术交流群

转载自&＃xff1a;新智元 | 编辑&＃xff1a;LRS 好困

【导读】换个优化器&＃xff0c;计算量少一半。

自Google提出Vision Transformer(ViT)以来&＃xff0c;ViT渐渐成为许多视觉任务的默认backbone。凭借着ViT结构&＃xff0c;许多视觉任务的SoTA都得到了进一步提升&＃xff0c;包括图像分类、分割、检测、识别等。

然而&＃xff0c;训练ViT并非易事。除了需要较复杂的训练技巧&＃xff0c;模型训练的计算量往往也较之前的CNN大很多。近日&＃xff0c;新加坡Sea AI LAB (SAIL) 和北大ZERO Lab的研究团队共同提出新的深度模型优化器Adan&＃xff0c;该优化器可以仅用一半的计算量就能完成ViT的训练。

Adan: Adaptive Nesterov Momentum Algorithm for Faster Optimizing Deep Models

论文链接&＃xff1a;https://arxiv.org/abs/2208.06677

代码链接&＃xff1a;https://github.com/sail-sg/Adan

此外&＃xff0c;在计算量一样的情况下&＃xff0c; Adan在多个场景&＃xff08;涉及CV、NLP、RL&＃xff09;、多种训练方式&＃xff08;有监督与自监督&＃xff09;和多种网络结构/算法&＃xff08;Swin、ViT、ResNet、ConvNext、MAE、LSTM、BERT、Transformer-XL、PPO算法&＃xff09;上&＃xff0c;均获得了性能提升。

代码、配置文件、训练log均已开源。

深度模型的训练范式与优化器

随着ViT的提出&＃xff0c;深度模型的训练方式变得越来越复杂。常见的训练技巧包括复杂的数据增强&＃xff08;如MixUp、CutMix、AutoRand&＃xff09;、标签的处理&＃xff08;如label smoothing和noise label&＃xff09;、模型参数的移动平均、随机网络深度、dropout等。伴随着这些技巧的混合运用&＃xff0c;模型的泛化性与鲁棒性均得到了提升&＃xff0c;但是随之而来的便是模型训练的计算量变得越来越大。

在ImageNet 1k上&＃xff0c;训练epoch数从ResNet刚提出的90已经增长到了训练ViT常用的300。甚至针对一些自监督学习的模型&＃xff0c;例如MAE、ViT&＃xff0c;预训练的epoch数已经达到了1.6k。训练epoch增加意味着训练时间极大的延长&＃xff0c;急剧增加了学术研究或工业落地的成本。目前一个普遍的解决方案是增大训练的batch size并辅助并行训练以减少训练时间&＃xff0c;但是伴随的问题便是&＃xff0c;大的batch size往往意味着performance的下降&＃xff0c;并且batch size越大&＃xff0c;情况越明显。

这主要是因为模型参数的更新次数随着batch size的增加在急剧减少。当前的优化器并不能在复杂的训练范式下以较少的更新次数实现对模型的快速训练&＃xff0c;这进一步加剧了模型训练epoch数的增长。

因此&＃xff0c;是否存在一种新的优化器能在较少的参数更新次数情况下更快更好地训练深度模型&＃xff1f;在减少训练epoch数的同时&＃xff0c;也能缓解batch size增加带来的负面影响&＃xff1f;

被忽略的冲量

要想加速优化器的收敛速度&＃xff0c;最直接的方法便是引入冲量。近年提出的深度模型优化器均沿用着Adam中使用的冲量范式——重球法&＃xff1a;

其中g_k是随机噪声&＃xff0c;m_k是moment&＃xff0c;eta是学习率。Adam将m_k的更新由累积形式换成了移动平均的形式&＃xff0c;并引入二阶moment&＃xff08;n_k&＃xff09;对学习率进行放缩&＃xff0c;即&＃xff1a;

然而随着Adam训练原始ViT失败&＃xff0c;它的改进版本AdamW渐渐地变成了训练ViT甚至ConvNext的首选。但是AdamW并没有改变Adam中的冲量范式&＃xff0c;因此在当batch size超过4,096的时候&＃xff0c;AdamW训练出的ViT的性能会急剧下降。

在传统凸优化领域&＃xff0c;有一个与重球法齐名的冲量技巧——Nesterov冲量算法&＃xff1a;

Nesterov冲量算法在光滑且一般凸的问题上&＃xff0c;拥有比重球法更快的理论收敛速度&＃xff0c;并且理论上也能承受更大的batch size。同重球法不同的是&＃xff0c;Nesterov算法不在当前点计算梯度&＃xff0c;而是利用冲量找到一个外推点&＃xff0c;在该点算完梯度以后再进行冲量累积。

外推点能帮助Nesterov算法提前感知当前点周围的几何信息。这种特性使得Nesterov冲量更加适合复杂的训练范式和模型结构&＃xff08;如ViT&＃xff09;&＃xff0c;因为它并不是单纯地依靠过去的冲量去绕开尖锐的局部极小点&＃xff0c;而是通过提前观察周围的梯度&＃xff0c;调整更新的方向。

尽管Nesterov冲量算法拥有一定的优势&＃xff0c;但是在深度优化器中&＃xff0c;却鲜有被应用与探索。其中一个主要的原因就是Nesterov算法需要在外推点计算梯度&＃xff0c;在当前点更新&＃xff0c;期间需要多次模型参数重载以及需要人为地在外推点进行back-propagation (BP)。这些不便利性极大地限制了Nesterov冲量算法在深度模型优化器中的应用。

Adan优化器

通过结合改写的Nesterov冲量与自适应优化算法&＃xff0c;并引入解耦的权重衰减&＃xff0c;可以得到最终的Adan优化器。利用外推点&＃xff0c;Adan可以提前感知周围的梯度信息&＃xff0c;从而高效地逃离尖锐的局部极小区域&＃xff0c;以增加模型的泛化性。

1) 自适应的Nesterov冲量

为了解决Nesterov冲量算法中多次模型参数重载的问题&＃xff0c;研究人员首先对Nesterov进行改写&＃xff1a;

可以证明&＃xff0c;改写的Nesterov冲量算法与原算法等价&＃xff0c;两者的迭代点可以相互转化&＃xff0c;且最终的收敛点相同。可以看到&＃xff0c;通过引入梯度的差分项&＃xff0c;已经可以避免手动的参数重载和人为地在外推点进行BP。

将改写的Nesterov冲量算法同自适应类优化器相结合——将m_k的更新由累积形式替换为移动平均形式&＃xff0c;并使用二阶moment对学习率进行放缩&＃xff1a;

至此已经得到了Adan的算法的基础版本。

2) 梯度差分的冲量

可以发现&＃xff0c;m_k的更新将梯度与梯度的差分耦合在一起&＃xff0c;但是在实际场景中&＃xff0c;往往需要对物理意义不同的两项进行单独处理&＃xff0c;因此研究人员引入梯度差分的冲量v_k&＃xff1a;

这里对梯度的冲量和其差分的冲量设置不同的冲量/平均系数。梯度差分项可以在相邻梯度不一致的时候减缓优化器的更新&＃xff0c;反之&＃xff0c;在梯度方向一致时&＃xff0c;加速更新。

3) 解耦的权重衰减

对于带L2权重正则的目标函数&＃xff0c;目前较流行的AdamW优化器通过对L2正则与训练loss解耦&＃xff0c;在ViT和ConvNext上获得了较好的性能。但是AdamW所用的解耦方法偏向于启发式&＃xff0c;目前并不能得到其收敛的理论保证。

基于对L2正则解耦的思想&＃xff0c;也给Adan引入解耦的权重衰减策略。目前Adan的每次迭代可以看成是在最小化优化目标F的某种一阶近似&＃xff1a;

由于F中的L2权重正则过于简单且光滑性很好&＃xff0c;以至于不需要对其进行一阶近似。因此&＃xff0c;可以只对训练loss进行一阶近似而忽略L2权重正则&＃xff0c;那么Adan的最后一步迭代将会变成&＃xff1a;

有趣的是&＃xff0c;可以发现AdamW的更新准则是Adan更新准则在学习率eta接近0时的一阶近似。因此&＃xff0c;可从proximal 算子的角度给Adan甚至AdamW给出合理的解释而不是原来的启发式改进。

4) Adan优化器

将2&＃xff09;和3&＃xff09;两个改进结合进Adan的基础版本&＃xff0c;可以得到如下的Adan优化器。

Adan结合了自适应优化器、Nesterov冲量以及解耦的权重衰减策略的优点&＃xff0c;能承受更大的学习率和batch size&＃xff0c;以及可以实现对模型参数的动态L2正则。

5) 收敛性分析

这里跳过繁复的数学分析过程&＃xff0c;只给出结论&＃xff1a;

定理&＃xff1a;在给定或未给定Hessian-smooth条件的两种情况下&＃xff0c;Adan优化器的收敛速度在非凸随机优化问题上均能达到已知的理论下界&＃xff0c;并且该结论在带有解耦的权重衰减策略时仍然成立。

实验结果

一、CV场景

1&＃xff09;有监督学习——ViT模型

针对ViT模型&＃xff0c;研究人员分别在ViT和Swin结构上&＃xff0c;测试了Adan的性能。

可以看到&＃xff0c;例如在ViT-small、ViT-base、Swin-tiny以及Swin-base上&＃xff0c;Adan仅仅消耗了一半的计算资源就获得了同SoTA优化器接近的结果&＃xff0c;并且在同样的计算量下&＃xff0c;Adan在两种ViT模型上均展现出较大的优势。

此外&＃xff0c;也在大batch size下测试了Adan的性能&＃xff1a;

可以看到&＃xff0c;Adan在各种batch size下都表现得不错&＃xff0c;且相对于专为大batch size设计的优化器&＃xff08;LAMB&＃xff09;也具有一定的优势。

2&＃xff09;有监督学习——CNN模型

除了较难训练的ViT模型&＃xff0c;研究人员也在尖锐局部极小点相对较少的CNN模型上也测试了Adan的性能——包括经典的ResNet与较先进的ConvNext。结果如下&＃xff1a;

可以观察到&＃xff0c;不管是ResNet还是ConvNext&＃xff0c;Adan均能在大约2/3训练epoch以内获得超越SoTA的性能。

3) 无监督学习

在无监督训练框架下&＃xff0c;研究人员在最新提出的MAE上测试了Adan的表现。其结果如下&＃xff1a;

同有监督学习的结论一致&＃xff0c;Adan仅消耗了一半的计算量就追平甚至超过了原来的SoTA优化器&＃xff0c;并且当训练epoch越小&＃xff0c;Adan的优势就越明显。

二、NLP场景

1) 有监督学习

在NLP的有监督学习任务上&＃xff0c;分别在经典的LSTM以及先进的Transformer-XL上观察Adan的表现。

Adan在上述两种网络上&＃xff0c;均表现出一致的优越性。并且对于Transformer-XL&＃xff0c;Adan在一半的训练步数内就追平了默认的Adam优化器。

2) 无监督学习

为了测试Adan在NLP场景下无监督任务上的模型训练情况。研究人员从头开始训练BERT&＃xff1a;在经过1000k的预训练迭代后&＃xff0c;在GLUE数据集的7个子任务上测试经过Adan训练的模型性能&＃xff0c;结果如下&＃xff1a;

Adan在所测试的7个词句分类任务上均展现出较大的优势。值得一提的是&＃xff0c;经过Adan训练的BERT-base模型&＃xff0c;在一些子任务上&＃xff08;例如RTE、CoLA以及SST-2&＃xff09;的结果甚至超过了Adam训练的BERT-large.

三、RL场景

研究人员将RL常用的PPO算法里的优化器替换为了Adan&＃xff0c;并在MuJoCo引擎中的4个游戏上测试了Adan的性能。在4个游戏中&＃xff0c;用Adan作为网络优化器的PPO算法&＃xff0c;总能获得较高的reward。

Adan在RL的网络训练中&＃xff0c;也表现出较大的潜力。

结论与展望

Adan优化器为目前的深度模型优化器引入了新的冲量范式。在复杂的训练范式下以较少的更新次数实现对模型的快速训练。

实验显示&＃xff0c;Adan仅需1/2-2/3的计算量就能追平现有的SoTA优化器。

Adan在多个场景&＃xff08;涉及CV、NLP、RL&＃xff09;、多个训练方式&＃xff08;有监督与自监督&＃xff09;和多种网络结构&＃xff08;ViT、CNN、LSTM、Transformer等&＃xff09;上&＃xff0c;均展现出较大的性能优势。此外&＃xff0c;Adan优化器的收敛速度在非凸随机优化上也已经达到了理论下界。

Adan 论文和代码下载

后台回复&＃xff1a;Adan&＃xff0c;即可下载上面论文和代码

CVPR/ECCV 2022论文和代码下载

后台回复&＃xff1a;CVPR2022&＃xff0c;即可下载CVPR 2022论文和代码开源的论文合集

后台回复&＃xff1a;ECCV2022&＃xff0c;即可下载CVPR 2022论文和代码开源的论文合集

后台回复&＃xff1a;Transformer综述&＃xff0c;即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立扫描下方二维码&＃xff0c;或者添加微信&＃xff1a;CVer222&＃xff0c;即可添加CVer小助手微信&＃xff0c;便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖&＃xff1a;目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注&＃xff1a;研究方向&＃43;地点&＃43;学校/公司&＃43;昵称&＃xff08;如目标检测或者Transformer&＃43;上海&＃43;上交&＃43;卡卡&＃xff09;&＃xff0c;根据格式备注&＃xff0c;可更快被通过且邀请进群▲扫码或加微信号: CVer222&＃xff0c;进交流群 CVer学术交流群&＃xff08;知识星球&＃xff09;来了&＃xff01;想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料&＃xff0c;欢迎扫描下方二维码&＃xff0c;加入CVer学术交流群&＃xff0c;已汇集数千人&＃xff01;▲扫码进群 ▲点击上方卡片&＃xff0c;关注CVer公众号

整理不易&＃xff0c;请点赞和在看

推荐阅读

rsa
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
web
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
format
【图像分类实战】利用DenseNet在PyTorch中实现秃头识别

本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先，文章概述了项目所需的库和全局参数设置。接着，对图像进行预处理并读取数据集。随后，构建并配置DenseNet模型，设置训练和验证流程。最后，通过测试阶段验证模型性能，并提供了完整的代码实现。本文不仅涵盖了技术细节，还提供了实用的操作指南，适合初学者和有经验的研究人员参考。 ... [详细]

蜡笔小新 2024-11-06 15:21:35
rsa
利用树莓派畅享落网电台音乐体验

最近重新拾起了闲置已久的树莓派，这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多，我决定将其重新启用。恰逢落网电台进行了改版，回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐，便萌生了同样的想法。通过一番调试，终于实现了在树莓派上流畅播放落网电台音乐的功能，带来了全新的音乐享受体验。 ... [详细]

蜡笔小新 2024-11-05 09:20:37
web
Node.js 配置文件管理方法详解与最佳实践

本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践，涵盖常见的配置文件格式及其优缺点，并提供了多种实用技巧和示例代码，帮助开发者高效地管理和维护项目配置，具有较高的参考价值。 ... [详细]

蜡笔小新 2024-11-05 06:40:19
web
【Linux进阶指南】第一阶段第三课：体验与部署Ubuntu系统

在正式踏上Linux学习之旅之前，本课程将引导你深入体验和部署Ubuntu系统。通过详细的操作步骤和实践演练，你将掌握Ubuntu的基本安装、配置及常用命令，为后续的进阶学习打下坚实的基础。此外，课程还将介绍如何解决常见问题和优化系统性能，帮助你更加高效地使用Ubuntu。 ... [详细]

蜡笔小新 2024-11-04 14:41:20
shell
利用Python与Android进行高效移动应用开发

通过结合Python和Android，可以实现高效的移动应用开发。首先，需要安装Scripting Layer for Android (SL4A)，这是一个开源项目，旨在为Android系统提供脚本语言支持。SL4A不仅简化了开发流程，还允许开发者使用Python等高级语言编写脚本，从而提高开发效率和代码可维护性。此外，SL4A还支持多种其他脚本语言，进一步扩展了其应用范围。通过这种方式，开发者可以快速构建功能丰富的移动应用，同时保持较高的灵活性和可扩展性。 ... [详细]

蜡笔小新 2024-11-03 21:18:12
shell
《Hadoop》系列深度探索（三）：物联网技术综述与应用前景

在前一篇文章《Hadoop》系列之“踽踽独行”（二）中，我们详细探讨了云计算的核心概念。本章将重点转向物联网技术，全面解析其基本原理、应用场景及未来发展前景。通过深入分析物联网的架构和技术栈，我们将揭示其在智能城市、工业自动化和智能家居等领域的广泛应用潜力。此外，还将讨论物联网面临的挑战，如数据安全和隐私保护等问题，并展望其在未来技术融合中的重要角色。 ... [详细]

蜡笔小新 2024-11-03 18:20:22
shell
BERT模型的应用与实践

本文探讨了BERT模型在自然语言处理领域的应用与实践。详细介绍了Transformers库（曾用名pytorch-transformers和pytorch-pretrained-bert）的使用方法，涵盖了从模型加载到微调的各个环节。此外，还分析了BERT在文本分类、情感分析和命名实体识别等任务中的性能表现，并讨论了其在实际项目中的优势和局限性。 ... [详细]

蜡笔小新 2024-11-03 13:20:53
match
基于OpenCV的图像拼接技术实践与示例代码解析

图像拼接技术在全景摄影中具有广泛应用，如手机全景拍摄功能，通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法，并提供了示例代码解析，帮助读者深入理解该技术的实现过程。 ... [详细]

蜡笔小新 2024-11-03 12:48:59
format
从零开始掌握PyTorch：生成对抗网络GAN进阶指南（第九篇）

本文将深入探讨生成对抗网络（GAN）在计算机视觉领域的应用。作为该领域的经典模型，GAN通过生成器和判别器的对抗训练，能够高效地生成高质量的图像。本文不仅回顾了GAN的基本原理，还将介绍一些最新的进展和技术优化方法，帮助读者全面掌握这一重要工具。 ... [详细]

蜡笔小新 2024-11-02 13:18:42
string
如何在Oracle ASM_Diskgroup中重命名现有磁盘

如何在Oracle ASM_Diskgroup中重命名现有磁盘 ... [详细]

蜡笔小新 2024-11-01 12:48:31
shell
linux 用通配符排除指定字符结尾文件的一种方法

linux用通配符排除指定字符结尾文件的一种方法,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-10-30 09:22:23
string
Android目录遍历工具 | AppCrawler自动化测试进阶（第二部分）：个性化配置详解

终于迎来了“足不出户也能为社会贡献力量”的时刻，但有追求的测试工程师绝不会让自己的生活变得乏味。与其在家消磨时光，不如利用这段时间深入研究和提升自己的技术能力，特别是对AppCrawler自动化测试工具的个性化配置进行详细探索。这不仅能够提高测试效率，还能为项目带来更多的价值。 ... [详细]

蜡笔小新 2024-10-29 13:58:19
string
魅族Flyme 7正式发布：全面解析与亮点介绍

在22日晚的发布会上，魅族不仅推出了m15、15和15 Plus三款新机型，还正式发布了全新的Flyme 7系统。Flyme 7在保持流畅体验的基础上，进一步增强了功能性和实用性，为用户带来更加丰富的使用体验。首批适配包已准备就绪，将逐步推送给现有设备。 ... [详细]

蜡笔小新 2024-10-29 10:53:56

半路出家者

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章