1.为什么用更用深的神经网络?
类似于人脑,第一层负责找细节比如边缘,第二层负责找特征比如鼻子、眼睛,第
三层负责找更大的特征比如人脸,所以网络越深,从细节到宏观的特征查找更仔
细。
神经元少但深的网络与神经元多但浅的网络能达到差不多的效果,但是神经元的增
长比深度的增长要快很多,所以采用增加深度的方法能减少神经元的使用减少网络
的复杂度提升算法的计算时间。
2.常用的正则化方法?
L2,L1正则化,限制w的大小从而降低网络的复杂度。另一种解释是,L2正则化
能够将w限制在一个小的范围类,然后对于sigmoid和tanh激活函数而言,当w很小
的时候z=w*x+b也会在一个较小的范围内,这时激活函数相当于线型函数,从而达
到正则化的目的。
dropout正则化,将神经元进行随机失活,但是由于最后的网络要用到所有神经元
所以最后需要对结果进行缩小。
增加训练数据,常用的方法为将已有数据进行变形获得更多的数据。
easy stop,将训练过程在错误率较小时停下来。