SMU激活函数|超越ReLU、GELU、LeakyReLU让ShuffleNetv2提升6.22%

作者：PHP菜鸟 | 来源：互联网 | 2023-09-01 17:52

点击上方“计算机视觉工坊”，选择“星标”干货第一时间送达作者丨ChaucerG来源丨集智书童选择一个好的激活函数可以对提高网络性能产生重要的影响。Handcrafte

点击上方“计算机视觉工坊”，选择“星标”

干货第一时间送达

作者丨ChaucerG

来源丨集智书童

选择一个好的激活函数可以对提高网络性能产生重要的影响。Handcrafted Activation是神经网络模型中最常见的选择。尽管ReLU有一些严重的缺点，但由于其简单性，ReLU成为深度学习中最常见的选择。
本文在已知激活函数Leaky ReLU近似的基础上，提出了一种新的激活函数，称之为Smooth Maximum Unit(SMU)。用SMU替换ReLU，ShuffleNet V2模型在CIFAR100数据集上得到了6.22%的提升。

1介绍

神经网络是深度学习的支柱。激活函数是神经网络的大脑，在深度神经网络的有效性和训练中起着核心作用。ReLU由于其简单性而成为深度学习领域的常用选择。尽管它很简单，但ReLU有一个主要的缺点，即ReLU死亡问题，在这种情况下，多达50%的神经元在网络训练期间死亡。

为了克服ReLU的不足，近年来提出了大量的激活方法，其中Leaky ReLU、Parametric ReLU 、ELU、Softplus、随机化Leaky ReLU是其中的几种，它们在一定程度上改善了ReLU的性能。

Swish是谷歌脑组提出的非线性激活函数，对ReLU有一定的改善；GELU是另一种常用的平滑激活函数。可以看出，Swish和GELU都是ReLU的光滑近似。近年来，人们提出了一些提高ReLU、Swish或GELU性能的非线性激活方法，其中一些是ReLU或Leaky ReLU的光滑逼近方法，还有TanhSoft、EIS、Padé激活单元、正交Padé激活单元、Mish、ErfAct等。

maximum function在原点处是非光滑的。在本文中，作者将探讨maximum function的平滑逼近如何影响网络的训练和性能。

2Smooth Maximum Unit

作者提出了Smooth Maximum Unit (SMU)。从|x|函数的光滑逼近中可以找到一个maximum function的一般逼近公式，它可以平滑逼近一般的maxout族、ReLU、Leaky ReLU或其变体、Swish等。作者还证明了GELU函数是SMU的一个特例。

2.1 平滑近似Maximum Function

Maximum Function定义如下：

式1

函数|x|在原点是不可微的。因此，从上式可以看出最大值函数在原点处也是不可微的。这里可以用Smooth函数来近似|x|函数。对于本文的其余部分,我们将只考虑两个近似| x, 在深度学习问题中使用这两个函数和近似的结果比其他近似|x|可以得到更好的结果。

注意，从上面平滑地近似|x|，而从下面平滑地近似|x|。这里是一个平滑参数，当取无穷大时，近似函数平滑地逼近|x|。这里erf是高斯误差函数，定义如下:

现将式(1)中的|x|函数替换为，则最大函数的光滑逼近公式如下:

式2

同理，可以推导出的光滑近似公式:

式3

注意，当无穷大,；当, 。对于和的特定值，可以近似已知的激活函数。例如，, ，得到：

式4

这是maxout族中的一个简单情况，而通过考虑和的非线性选择可以发现更复杂的情况。对于和的特定值，可以得到ReLU和Leaky ReLU的平滑近似。例如，考虑和，有ReLU的平滑近似：

式5

GELU是ReLU的光滑近似。注意，如果方程(5)中取，则可以逼近GELU激活函数，这也表明GELU是ReLU的光滑近似。此外，考虑和α，可以得到Leaky ReLU或Parametric ReLU的光滑逼近，这取决于α是超参数还是可学习参数。

式6

请注意，式(5)和式(6)下端近似为ReLU或Leaky ReLU。同样地，可以从式(3)推导出近似函数，它将近似上面的ReLU或Leaky ReLU。

式(6)对输入变量x的相应导数为:

式7

其中，

称方程(6)中的函数为Smooth Maximum Unit(SMU)。可以将方程(3)中的和α替换为一个函数，称之为SMU-1。对于所有的实验，将使用SMU和SMU-1作为激活函数。

2.2 通过反向传播学习激活参数

使用backpropagation技术更新可训练激活函数参数。作者在Pytorch和Tensorflow-KerasAPI中实现了向前传递，自动区分将更新参数。另外，可以使用CUDA的实现，α和µ参数的梯度可以计算如下:

式8+9

α和µ既可以是超参数，也可以是可训练参数。对于SMU和SMU-1，α = 0.25，这是一个超参数。也将µ作为可训练参数，对SMU和SMU-1分别在1000000和4.352665993287951e−09初始化。

这里，具有SMU和SMU-1激活函数的神经网络密集在C(K)中，其中K是的子集，C(K)是K上所有连续函数的空间。

Proposition

设ρ是任意连续函数。设ρ表示一类具有激活函数ρ的神经网络，在输入层有n个神经元，在输出层有1个神经元，在隐层有任意数目的神经元。设为compact，那么当且仅当ρ是非多项式时C(K)的是dense。

3实验

3.1 分类

3.2 目标检测

3.3 语义分割

4参考

[1].SMU: SMOOTH ACTIVATION FUNCTION FOR DEEP NETWORKS USING SMOOTHING MAXIMUM TECHNIQUE

本文仅做学术分享，如有侵权，请联系删文。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

推荐阅读

function
PHP微信支付退款功能实现及订单创建类代码（附带调用示例）

【实例简介】本文详细介绍了如何在PHP中实现微信支付的退款功能，并提供了订单创建类的完整代码及调用示例。在配置过程中，需确保正确设置相关参数，特别是证书路径应根据项目实际情况进行调整。为了保证系统的安全性，存放证书的目录需要设置为可读权限。值得注意的是，普通支付操作无需证书，但在执行退款操作时必须提供证书。此外，本文还对常见的错误处理和调试技巧进行了说明，帮助开发者快速定位和解决问题。 ... [详细]

蜡笔小新 2024-11-11 13:17:39
sum
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
function
吴恩达深度学习课程笔记：第一部分第三周——浅层神经网络详解

浅层神经网络解析：本文详细探讨了两层神经网络（即一个输入层、一个隐藏层和一个输出层）的结构与工作原理。通过吴恩达教授的课程，读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外，文章还介绍了如何利用这些基础知识解决实际问题，并提供了丰富的实例和代码示例。 ... [详细]

蜡笔小新 2024-11-02 12:20:03
post
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新 2024-11-12 16:31:32
post
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
merge
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
process
JavaWeb文件上传：前端实现与后端处理详解

在JavaWeb开发中，文件上传是一个常见的需求。无论是通过表单还是其他方式上传文件，都必须使用POST请求。前端部分通常采用HTML表单来实现文件选择和提交功能。后端则利用Apache Commons FileUpload库来处理上传的文件，该库提供了强大的文件解析和存储能力，能够高效地处理各种文件类型。此外，为了提高系统的安全性和稳定性，还需要对上传文件的大小、格式等进行严格的校验和限制。 ... [详细]

蜡笔小新 2024-11-11 19:50:46
python
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
function
全面解析JavaScript代码注释技巧与标准规范

在Web前端开发中，JavaScript代码的可读性和维护性至关重要。本文将详细介绍如何有效地使用注释来提高代码的可读性，并探讨JavaScript代码注释的最佳实践和标准规范。通过合理的注释，开发者可以更好地理解和维护复杂的代码逻辑，提升团队协作效率。 ... [详细]

蜡笔小新 2024-11-10 15:16:18
plugins
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
plugins
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
function
PHP微信开发基础教程（第三篇）：详解消息类型处理

在本文中，我们将详细介绍如何构建一个用于自动回复消息的XML类。当微信服务器接收到用户消息时，该类将生成相应的自动回复消息。以下是具体的代码实现：```phpclass We_Xml { // 代码内容}```通过这个类，开发者可以轻松地处理各种消息类型，并实现高效的自动回复功能。我们将深入探讨类的各个方法和属性，帮助读者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-11-09 15:50:27
function
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
sum
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
function
Python编程中的高级技巧与应用

在Python编程中，掌握高级技巧对于提升代码效率和可读性至关重要。本文重点探讨了生成器和迭代器的应用，这两种工具不仅能够优化内存使用，还能简化复杂数据处理流程。生成器通过按需生成数据，避免了大量数据加载对内存的占用，而迭代器则提供了一种优雅的方式来遍历集合对象。此外，文章还深入解析了这些高级特性的实际应用场景，帮助读者更好地理解和运用这些技术。 ... [详细]

蜡笔小新 2024-10-30 16:12:26

PHP菜鸟

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章