随机梯度下降(SDG)与批量梯度下降(BDG)是梯度下降算法中非常重要的两种方法,两种算法在数据处理上都是比较极端的,具体如下图所示:
方法 | 特点 |
---|---|
BDG | 1、采用所有数据进行梯度下降操作; 2、在样本较多即数据量较大时训练速度很慢 |
SDG | 1、SDG使用一个样本进行梯度下降操作; 2、训练速度很快; 3、由于采用一个样本运算,因此有可能得到的不是全局最优解; 4、由于使用一个样本操作导致迭代的方向变化很大,因此不能很快的收敛到局部最优解 |
鉴于以上方法的极端性,于是有了小批量梯度下降法(Mini-Batch GD),即采用整体样本的子集或是说子样本进行迭代。