作者:1712477436 | 来源:互联网 | 2024-10-14 19:08
谈到深度学习的理论基础,可能读者首先想到的就是通用近似定理(Universalapproximationtheorem),其表示拥有无限神经元的单层前馈网络能逼近紧致实数子集上的任
谈到深度学习的理论基础,可能读者首先想到的就是通用近似定理(Universal approximation theorem),其表示拥有无限神经元的单层前馈网络能逼近紧致实数子集上的任意连续函数。
通俗来说,
只要神经元足够多,单层前馈神经网络「有潜力」逼近任意复杂的连续函数。
在 1989 年提出通用近似定理以来,至少我们有了最基本的一个理论基础,即神经网络有潜力解决各种复杂的现实问题。
MIT 教授 Tomaso Poggio 曾在他的系列研究中 [1] 表示深度学习理论研究可以分为三大类:
表征问题(Representation):为什么深层网络比浅层网络的表达能力更好?最优化问题(Optimization):为什么梯度下降能找到很好的极小值解,好的极小值有什么特点?泛化问题(Generalization):为什么过参数化仍然能拥有比较好的泛化性,不过拟合?对于表征问题,我们想要知道深度神经网络这种「复合函数」,它的表达能力到底怎么确定,它的复合机制又是什么样的。我们不再满足于「能拟合任意函数」这样的定性描述,我们希望知道是不是有一种方法能描述 50 层 ResNet、12 层 Transformer 的拟合能力,能不能清楚地了解它们的理论性质与过程。
有了表征能力,那也只是具备了拟合潜力,深度学习还需要找到一组足够好的极值点,这就是模型的最优解。不同神经网络的「最优化 Landscape」是什么样的、怎样才能找到这种高维复杂函数的优秀极值点、极值点的各种属性都需要完善的理论支持。
最后就是泛化了,深度模型泛化到未知样本的能力直接决定了它的价值。那么深度模型的泛化边界该怎样确定、什么样的极值点又有更好的泛化性能,很多重要的特性都等我们确定一套理论基准。
总而言之,谈到深度学习理论基础,我们总是少不了听到这些关键词:
3. 经过正则化后,GAN 可以通过有限大小的生成器与判别器实现极小极大收敛率。作为分离 GAN 与其它非参工具的首批理论结果,它可能可以帮助解释为什么 GAN 在高维数据上能获得这么大的成功。
最后,不论是深度学习真正的理论基础,还是从理论出发构建新方法、新模型,至少在 2019 年的 AI 顶会中,我们很高兴能看到各种前沿研究都在拜托「启发式」的新发现,反而更系统地关注它们的立足基础。也许这些新发现,最终能带领我们构建一个系统的领域、一个成熟的学科。
往事如yan
发布了55 篇原创文章 · 获赞 44 · 访问量 11万+
私信
关注