作者:怡智俊婷珮婷 | 来源:互联网 | 2023-06-20 12:39
一、
mini-batch gradient descent(批量梯度下降法)![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/7661806a122635ca.png)
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/1b20cacbe2447d4e.png)
mini-batch size的确定(结余1~m之间,有利于充分利用向量化和每次训练部分样本以提高训练速度)
①对于样本总数小于2000个时,用总体的梯度下降法
②典型的mini-batch size的大小为 2^6=64,2^7=128,2^8=256,2^9=512,为2的次方时有利于GPU/CPU的计算
③对于每一组batch应该满足GPU/CPU的内存要求
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/76f1e3d0399ad295.png)
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/144808ccc650c8f9.png)
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/f19543a756c53513.png)
二、Exponentially weighted averages(指数加权平均值/滑动平均值)
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/d233b4071ad9543a.png)
指数加权求平均值的算法执行时只占用一个数字,一行代码,占用的内存很小。是一种不错的求加权平均值的方法。
当β=0.9时,1/(1-β)=10.只需要过去十天的数据便可以计算出平均值。同理,当β=0.98时,1/(1-β)=1/ε=50,需要
用到过去50天的数据才能计算出加权平均值。
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/3600a11c9c2cd550.png)
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/e4935b775e577700.png)
三、偏差修正(bias correction)
公式:vt = vt/(1-β^t)【注:β=0.9是一个很好的鲁棒数】
由于初始化V0=0,则V1=0.9*0+0.1*θ1=0.1θ1会明显小于第一天的数据,同理可得,V1也会出现类似的偏差
用于修正训练早期对于平均值的估计存在的误差,t代表当前的天数,随着天数的增加,分母会趋近于0。因此其
只对早期的指数加权平均值起作用,其作用效果就是使得紫线趋近于绿线。当然也可以也可以选择不对早期的数据
进行处理,因为随着天数的不断增加,紫线便会和绿线重合。
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/9fa8142c4e84c94a.png)
四、Momentum梯度下降法
Momentum梯度下降法由于一般的梯度下降法,Momentum梯度下降法通过指数平均权重的方法来求出dw,可以使得其
在梯度下降时在纵向的摆动幅度减小(详见下图),使得收敛的速度加快(若纵向的摆动幅度太大,为了不使得梯度下降
时迭代越界超出了函数的定义域,学习率α不能设置太大因此直接梯度下降法的收敛速度慢于Momentum梯度下降法)。
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/25f0cb622d1c012c.png)
![DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai) DAY7: 神经网络及深度学习基础--算法的优化(deeplearning.ai)](https://img1.php1.cn/3cd4a/2513d/78c/0b24e04deb42c4d3.png)