热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

l2正则化系数过高导致梯度消失

lamda3#正则化惩罚系数w_grad(np.dot(self.input.T,grad)(self.lamda*self.w))self.batch_size这里把正则化系数

 

lamda = 3 # 正则化惩罚系数w_grad=(np.dot(self.input.T, grad) + (self.lamda * self.w))/self.batch_size

这里把正则化系数设置为3

如果采用4层relu隐藏层的神经网络,将会直接导致梯度消失

1%| | 2/200 [00:17<28:09, 8.53s/it]loss为0.23035251606429571
准确率为0.09375
梯度均值为-1.452481815897801e-11
2%|▏ | 3/200 [00:26<28:26, 8.66s/it]loss为0.23077135760414888
准确率为0.1015625
梯度均值为1.422842658558051e-14
2%|▏ | 4/200 [00:34<27:49, 8.52s/it]loss为0.23046438461223917
准确率为0.10546875
梯度均值为-8.111952281250118e-18
2%|▎ | 5/200 [00:41<26:23, 8.12s/it]loss为0.2301827048850293
准确率为0.12109375
梯度均值为-6.3688796773963155e-21
3%|▎ | 6/200 [00:49<25:47, 7.98s/it]loss为0.23023365984639205
准确率为0.125
梯度均值为-1.2646968613522145e-23
4%|▎ | 7/200 [00:56<25:00, 7.77s/it]loss为0.23074116618703105
准确率为0.08984375
梯度均值为7.443049613238094e-26
4%|▍ | 8/200 [01:03<24:34, 7.68s/it]loss为0.23025406010680918
准确率为0.11328125
梯度均值为5.544761930793375e-29
4%|▍ | 9/200 [01:11<24:14, 7.62s/it]loss为0.23057808569519062
准确率为0.08984375
梯度均值为-2.505663387779514e-30
5%|▌ | 10/200 [01:19<24:35, 7.76s/it]loss为0.23014966000613057
准确率为0.10546875
梯度均值为-1.588181439704063e-31

梯度均值会越来越低,从e-5一直下降到e-31

而把lamda改为1后,将会缓解这个情况

0%| | 0/200 [00:00准确率为0.13671875
梯度均值为4.6649560959205905e-05
0%| | 1/200 [00:07<24:21, 7.34s/it]loss为0.1554314625472287
准确率为0.4609375
梯度均值为-0.0002773582179562886
1%| | 2/200 [00:14<23:59, 7.27s/it]loss为0.18376994316806905
准确率为0.31640625
梯度均值为8.423075286773206e-05
2%|▏ | 3/200 [00:21<23:30, 7.16s/it]loss为0.12577617122257392
准确率为0.53515625
梯度均值为0.00047661977909027993
2%|▏ | 4/200 [00:28<23:09, 7.09s/it]loss为0.12035617394653744
准确率为0.515625
梯度均值为1.5361318373022455e-05
2%|▎ | 5/200 [00:35<22:52, 7.04s/it]loss为0.11590587695113908
准确率为0.5546875
梯度均值为4.901066522064529e-05

lamda值是提升模型泛化能力的,但是不能设置过高,否则也会导致梯度消失,也不能设置过低,将会导致梯度爆炸


推荐阅读
  • 不同优化算法的比较分析及实验验证
    本文介绍了神经网络优化中常用的优化方法,包括学习率调整和梯度估计修正,并通过实验验证了不同优化算法的效果。实验结果表明,Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]
  • Visualizing and Understanding Convolutional Networks(ZFNet网络)论文阅读笔记
    VisualizingandUnderstandingConvolutionalNetworksZFNet网络架构论文阅读笔记2022.4.4论文地址https:arxiv ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了如何使用Python正则表达式匹配MATLAB的函数语法,包括多行匹配和跨行签名的处理方法。同时,作者还分享了自己遇到的问题和解决方案。 ... [详细]
  • 也就是|小窗_卷积的特征提取与参数计算
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了卷积的特征提取与参数计算相关的知识,希望对你有一定的参考价值。Dense和Conv2D根本区别在于,Den ... [详细]
  • 本文介绍了南邮ctf-web的writeup,包括签到题和md5 collision。在CTF比赛和渗透测试中,可以通过查看源代码、代码注释、页面隐藏元素、超链接和HTTP响应头部来寻找flag或提示信息。利用PHP弱类型,可以发现md5('QNKCDZO')='0e830400451993494058024219903391'和md5('240610708')='0e462097431906509019562988736854'。 ... [详细]
  • 本文介绍了绕过WAF的XSS检测机制的方法,包括确定payload结构、测试和混淆。同时提出了一种构建XSS payload的方法,该payload与安全机制使用的正则表达式不匹配。通过清理用户输入、转义输出、使用文档对象模型(DOM)接收器和源、实施适当的跨域资源共享(CORS)策略和其他安全策略,可以有效阻止XSS漏洞。但是,WAF或自定义过滤器仍然被广泛使用来增加安全性。本文的方法可以绕过这种安全机制,构建与正则表达式不匹配的XSS payload。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • Opencv提供了几种分类器,例程里通过字符识别来进行说明的1、支持向量机(SVM):给定训练样本,支持向量机建立一个超平面作为决策平面,使得正例和反例之间的隔离边缘被最大化。函数原型:训练原型cv ... [详细]
  • keras归一化激活函数dropout
    激活函数:1.softmax函数在多分类中常用的激活函数,是基于逻辑回归的,常用在输出一层,将输出压缩在0~1之间,且保证所有元素和为1,表示输入值属于每个输出值的概率大小2、Si ... [详细]
  • 程度|也就是_论文精读:Neural Architecture Search without Training
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了论文精读:NeuralArchitectureSearchwithoutTraining相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 论文阅读:《Bag of Tricks for LongTailed Visual Recognition with Deep Convolutional Neural Networks》
    基于深度卷积神经网络的长尾视觉识别技巧包摘要近年来,挑战性长尾分布上的视觉识别技术取得了很大的进展,主要基于各种复杂的范式(如元学习)。除了这些复杂 ... [详细]
  • 大数据环境下的存储系统构建:挑战、方法和趋势
    大数据环境下的存储系统构建:挑战、方法和趋势陈游旻,李飞,舒继武清华大学计算机科学与技术系,北京100084摘要:互联网规模的迅速扩展促使 ... [详细]
  • OO第一单元自白:简单多项式导函数的设计与bug分析
    本文介绍了作者在学习OO的第一次作业中所遇到的问题及其解决方案。作者通过建立Multinomial和Monomial两个类来实现多项式和单项式,并通过append方法将单项式组合为多项式,并在此过程中合并同类项。作者还介绍了单项式和多项式的求导方法,并解释了如何利用正则表达式提取各个单项式并进行求导。同时,作者还对自己在输入合法性判断上的不足进行了bug分析,指出了自己在处理指数情况时出现的问题,并总结了被hack的原因。 ... [详细]
author-avatar
七城赣州击剑_966
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有