作者: | 来源:互联网 | 2023-10-11 16:16
学习率衰减同样适用于adam算法。AdaGrad擅长学习稀疏feature和稀疏梯度。学习率衰减的adam算法在imdb数据集上,可以取得和AdaGrad一样的效果。2全连接网络。
重新核对下一篇论文《Adam: A Method for Stochastic Optimization》,结合想和人在一起的冰淇淋系列课程,得到了新的理解
几种常见的优化方法
RMSProp处理在线和瞬态数据
AdaGrad处理稀疏梯度
adam原理介绍
论文推荐参数设置:
阿尔法=0.001,beta1=0.9,beta2=0.999,epsilon=10E8
通过计算Adam(Adammomentestimation )梯度的一阶矩和二阶矩,计算不同参数各自的自适应学习速率。
收敛性证明
还没有深入研究
实验部分
论文在lr、全连接网络、深度卷积网络上进行了实验
1 ) Lr模型。 学习率的衰减也适用于adam算法。 被论文采用了。 AdaGrad擅长学习稀疏feature和稀疏梯度。 学习率衰减的adam算法可以在imdb数据集上获得与ada网格相似的效果。
2 )全连接网络。 与SFO优化算法相比,adam算法在收敛性和时间方面更优。 与其他随机一次算法相比,adam算法也同样优秀
3 )卷积神经网络。 对于CNN,通常设置更小的学习率。 可以看出,梯度的二次估计很快衰减为0,二次估计在cnn的cost function中较差,因此AdaGrad算法较差。
VAE网络。 时光流逝
接近1时,如果不应用bias correlection,在训练过程中会变得不稳定。 最好的训练结果是
、同时使用bias correlection时获取