l2正则化系数过高导致梯度消失

作者：七城赣州击剑_966 | 来源：互联网 | 2023-05-17 07:21

lamda3#正则化惩罚系数w_grad(np.dot(self.input.T,grad)(self.lamda*self.w))self.batch_size这里把正则化系数

lamda = 3 # 正则化惩罚系数w_grad=(np.dot(self.input.T, grad) + (self.lamda * self.w))/self.batch_size

这里把正则化系数设置为3

如果采用4层relu隐藏层的神经网络，将会直接导致梯度消失

1%| | 2/200 [00:17<28:09, 8.53s/it]loss为0.23035251606429571 准确率为0.09375 梯度均值为-1.452481815897801e-11 2%|▏ | 3/200 [00:26<28:26, 8.66s/it]loss为0.23077135760414888 准确率为0.1015625 梯度均值为1.422842658558051e-14 2%|▏ | 4/200 [00:34<27:49, 8.52s/it]loss为0.23046438461223917 准确率为0.10546875 梯度均值为-8.111952281250118e-18 2%|▎ | 5/200 [00:41<26:23, 8.12s/it]loss为0.2301827048850293 准确率为0.12109375 梯度均值为-6.3688796773963155e-21 3%|▎ | 6/200 [00:49<25:47, 7.98s/it]loss为0.23023365984639205 准确率为0.125 梯度均值为-1.2646968613522145e-23 4%|▎ | 7/200 [00:56<25:00, 7.77s/it]loss为0.23074116618703105 准确率为0.08984375 梯度均值为7.443049613238094e-26 4%|▍ | 8/200 [01:03<24:34, 7.68s/it]loss为0.23025406010680918 准确率为0.11328125 梯度均值为5.544761930793375e-29 4%|▍ | 9/200 [01:11<24:14, 7.62s/it]loss为0.23057808569519062 准确率为0.08984375 梯度均值为-2.505663387779514e-30 5%|▌ | 10/200 [01:19<24:35, 7.76s/it]loss为0.23014966000613057 准确率为0.10546875 梯度均值为-1.588181439704063e-31

梯度均值会越来越低，从e-5一直下降到e-31

而把lamda改为1后，将会缓解这个情况

0%| | 0/200 [00:00准确率为0.13671875 梯度均值为4.6649560959205905e-05 0%| | 1/200 [00:07<24:21, 7.34s/it]loss为0.1554314625472287 准确率为0.4609375 梯度均值为-0.0002773582179562886 1%| | 2/200 [00:14<23:59, 7.27s/it]loss为0.18376994316806905 准确率为0.31640625 梯度均值为8.423075286773206e-05 2%|▏ | 3/200 [00:21<23:30, 7.16s/it]loss为0.12577617122257392 准确率为0.53515625 梯度均值为0.00047661977909027993 2%|▏ | 4/200 [00:28<23:09, 7.09s/it]loss为0.12035617394653744 准确率为0.515625 梯度均值为1.5361318373022455e-05 2%|▎ | 5/200 [00:35<22:52, 7.04s/it]loss为0.11590587695113908 准确率为0.5546875 梯度均值为4.901066522064529e-05

lamda值是提升模型泛化能力的，但是不能设置过高，否则也会导致梯度消失，也不能设置过低，将会导致梯度爆炸

推荐阅读

int
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
int
Visualizing and Understanding Convolutional Networks(ZFNet网络)论文阅读笔记

VisualizingandUnderstandingConvolutionalNetworksZFNet网络架构论文阅读笔记2022.4.4论文地址https:arxiv ... [详细]

蜡笔小新 2023-10-13 12:30:06
rsa
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
rsa
如何使用Python正则表达式匹配MATLAB的函数语法？

本文介绍了如何使用Python正则表达式匹配MATLAB的函数语法，包括多行匹配和跨行签名的处理方法。同时，作者还分享了自己遇到的问题和解决方案。 ... [详细]

蜡笔小新 2023-12-14 09:40:38
int
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48
get
南邮ctf-web的writeup

本文介绍了南邮ctf-web的writeup，包括签到题和md5 collision。在CTF比赛和渗透测试中，可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型，可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]

蜡笔小新 2023-12-13 10:58:55
get
绕过WAF的XSS检测机制及构建XSS payload的方法

本文介绍了绕过WAF的XSS检测机制的方法，包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法，该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型（DOM）接收器和源、实施适当的跨域资源共享（CORS）策略和其他安全策略，可以有效阻止XSS漏洞。但是，WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制，构建与正则表达式不匹配的XSS payload。 ... [详细]

蜡笔小新 2023-12-11 19:42:30
join
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
join
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
get
Opencv Python版学习笔记（八）字符识别-分类器（SVM，KNearest，RTrees，Boost，MLP）

Opencv提供了几种分类器，例程里通过字符识别来进行说明的1、支持向量机（SVM）：给定训练样本，支持向量机建立一个超平面作为决策平面，使得正例和反例之间的隔离边缘被最大化。函数原型：训练原型cv ... [详细]

蜡笔小新 2023-10-17 17:02:44
get
keras归一化激活函数dropout

激活函数:1.softmax函数在多分类中常用的激活函数，是基于逻辑回归的，常用在输出一层，将输出压缩在0~1之间，且保证所有元素和为1，表示输入值属于每个输出值的概率大小2、Si ... [详细]

蜡笔小新 2023-10-16 18:35:17
int
程度|也就是_论文精读：Neural Architecture Search without Training

篇首语：本文由编程笔记#小编为大家整理，主要介绍了论文精读：NeuralArchitectureSearchwithoutTraining相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 16:33:20
list
论文阅读：《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》

基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来，挑战性长尾分布上的视觉识别技术取得了很大的进展，主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]

蜡笔小新 2023-10-16 11:18:28
int
大数据环境下的存储系统构建：挑战、方法和趋势

大数据环境下的存储系统构建：挑战、方法和趋势陈游旻,李飞,舒继武清华大学计算机科学与技术系，北京100084摘要：互联网规模的迅速扩展促使 ... [详细]

蜡笔小新 2023-10-12 19:26:27
list
OO第一单元自白：简单多项式导函数的设计与bug分析

本文介绍了作者在学习OO的第一次作业中所遇到的问题及其解决方案。作者通过建立Multinomial和Monomial两个类来实现多项式和单项式，并通过append方法将单项式组合为多项式，并在此过程中合并同类项。作者还介绍了单项式和多项式的求导方法，并解释了如何利用正则表达式提取各个单项式并进行求导。同时，作者还对自己在输入合法性判断上的不足进行了bug分析，指出了自己在处理指数情况时出现的问题，并总结了被hack的原因。 ... [详细]

蜡笔小新 2023-12-12 14:51:21

七城赣州击剑_966

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章