我们假设我有一个简单的MLP
并且我有一个关于输出层的一些损失函数的梯度来得到G = [0,-1](也就是说,增加第二个输出变量会减小损失函数).
如果我根据我的网络参数采用G的梯度并应用渐变体面的权重更新,则第二个输出变量应该增加,但是没有关于第一个输出变量的说法,并且渐变的缩放应用几乎肯定会改变输出变量(增加它或减少它)
如何修改我的损失函数或任何梯度计算,以确保第一个输出不会改变?