作者:hk129 | 来源:互联网 | 2023-09-17 06:26
PS:之前我的理解有一点偏差,经过@刘昊淼和@王赟Maigo的提醒现在已经更正了。知乎的这个编辑器打公式太麻烦了,更新后的内容请看原文链接PyTorch与caffe中SGD算法实现
PS: 之前我的理解有一点偏差,经过
@刘昊淼 和
@王赟 Maigo 的提醒现在已经更正了。
知乎的这个编辑器打公式太麻烦了,更新后的内容请看原文链接
PyTorch与caffe中SGD算法实现的一点小区别 kaizhao.net![《PyTorch与caffe中SGD算法实现的一点小区别》](https://img.php1.cn/3cd4a/1eebe/cd5/bdd1ca32a69bc8b2.webp)
最近在复现之前自己之前的一个paper的时候发现PyTorch与caffe在实现SGD优化算法时有一处不太引人注意的区别,导致原本复制caffe中的超参数在PyTorch中无法复现性能。
这个区别于momentum有关。简单地说,[1]和caffe的实现中,momentum项只用乘以一个系数 ![《PyTorch与caffe中SGD算法实现的一点小区别》](https://img.php1.cn/3cd4a/1eebe/cd5/d84f9786330d9e41.png)
![《PyTorch与caffe中SGD算法实现的一点小区别》](https://img.php1.cn/3cd4a/1eebe/cd5/d84f9786330d9e41.png)
[1] Sutskever, Ilya, et al. “On the importance of initialization and momentum in deep learning.”International conference on machine learning. 2013.