更新参数的时间和训练的方法有关,更确切的说,是我们为了设置什么时候更新参数,才使用哪种方法进行训练
1、如果一次性训练全部样本才更新参数,就将所有样本都丢进去(相当于只有一个batch),Gradient Descent梯度下降法进行计算
2、如果每计算一个样本,就更新一次参数,我们使用 Stochastic Gradient Descent 随机梯度下降
3、如果每次计算一个batch才更新参数,则使用 Batch Gradient Descent
所以这三种方式,计算得到的模型结果其实是不一样的,计算一个batch才更新模型的话,是根据每一个batch的损失函数的梯度下降的方向进行计算