热门标签 | HotTags
当前位置:  开发笔记 > 大数据 > 正文

AI的十种“新数学”

智源导读:当下人工智能对各领域产生了重要影响,数学也不例外。近期,在智源研究院成立两周年之际举办的“智源论坛2020”中,北

智源导读:当下人工智能对各领域产生了重要影响,数学也不例外。

近期,在智源研究院成立两周年之际举办的“智源论坛2020”中,北京大学教授、智源学者林伟提出这样一个问题:人工智能到底能不能够激发新数学的发展?对这一问题,他给出“人工智能的十种新数学”的回答。

随后并邀请智源研究院不同研究领域的六位科学家,对如何将 AI 理论与 AI 应用相结合的问题进行激烈且深度的探讨。

整个研讨分为两部分,首先由北京大学教授林伟做引导报告《人工智能新数学》,随后七位学者围绕多个问题进行辩论。

 

从左到右:林伟、余山、邓柯、董彬、明平兵、邵嗣烘、林宙辰

 

整理:智源社区 贾伟

 

人工智能的十种新数学

以下是林伟教授的报告内容整理:

 

林伟:我常常被问到,人工智能到底能不能够激发新数学的发展,这种新数学在做基础数学的人看来不一定是新的,但可能跟一些我们意想不到、不那么常用在智能领域的数学分支发生联系?

 

我对这个问题做了些思考,大概收集十个方向。

 

首先,有四个部分知识大概是我们在人工智能领域里用得比较多的:

  • 一个是概率论、数理统计;

  • 一个是数值代数、数值分析、最优化;

  • 一个是经典分析、函数论,比如深度学习里很重要的一块是知道逼近论的知识;

  • 还有计算机科学基础,包括离散数学、理论计算机科学。

 

我在这里把它们归为“旧”数学,但这个“旧”不是说它不重要;对学生来说,仍然是最应该掌握、最核心的工具。

 

那么相对于“旧数学”,我总结了人工智能的十种“新数学”。

01

泛函分析

 

我们的深度神经网络,是有限的神经元;但如果我们要研究它的逼近能力,就不能假设真实的数据是来自于这样一个有限的模型,因为真实世界是非常复杂的。

 

所以我们往往需要去定义一个适当的函数类。真实数据应该来自于哪个函数类?

             

这篇文章定义了一个宽度为无穷宽的极限,这构成了一个数学上讲的“巴拉克空间”,我在这上面再来发展一些数学理论。

 

02

群表示论与范畴论

       

这个大家可能非常陌生,但是为什么放在这里呢?实际上这两个分支不太一样,但是它们都是现代的代数学的一些方向。

为什么人工智能里面需要“群表示论”?所谓的“群”,它可以表示对称性,现在神经网络里面参数非常多,甚至多达1000多万个,这里面有很多冗余性,我们通过对称性可以定义一些对称群,在某些变换下,很多神经网络本质上是等价的,我们可以通过这种群表示论,用双线性变换或者矩阵来表示“群”的方法来研究神经网络中的对称性。

 

范畴论更加抽象一点。这里是个例子,它是用范畴论里的函子来描述反向传播算法。范畴论很简单,也很抽象,它为什么可以很自然用在神经网络里?主要因为它很适合用来研究函数的复合。深度神经网络的特征是一层一层复合上去的结构,所以这也是一个比较抽象,但有一定潜力的理论。

 

03

微分几何

       

这个大家相对来说比较熟悉一些,这是基于大家都比较熟悉的一个假设——“流形分布假设”,比如手写识别的数据,大多数情况下我们相信它分布在流形上面,我们可以利用微分几何流形上的数学来研究它从输入到输出之间的关系。比如上面这篇文章考虑了对称生成对抗网络与流形的一些关系。

04

代数几何

             

这是基础数学非常核心的分支,但是很少听说代数几何在人工智能里面还有用处,我也是查了文献才知道。这是“热带几何”,是代数几何的一种变体。为什么神经网络里可以用到这个代数几何?因为ReLU函数是{X,0}取大,通过这个取大操作以及加法、减法,定义了一些热带几何上的预算,通过这几种预算,我们就可以定义一种多项式。我们知道代数几何是研究多项式的几何,所以我们神经网络就可以用这种形式的代数几何来描述。

05

随机矩阵

              

接下来逐渐从抽象向应用走。随机矩阵是大家用得比较多的一个工具。神经网络里面,一个大型的神经网络,在某种情况下它的权值比较接近随机分布,我们可以用随机矩阵理论来刻画它的谱的性质。我们知道对于某些分布,系数不同时会有不同的谱分布。大型神经网络里是否也有这样规律现象?我们可以用随机矩阵理论刻画神经网络的预测和学习性能。

06

最优传输

             

最优传输,近两年也非常火,主要因为它特别适合用来描述对抗生成网络(GAN)里面的问题。最优传输,有非常悠久的历史,现在仍然是数学里面非常核心的一个方向。简单来说,最优传输的问题便是,有两个概率分布,怎样从一个概率分布迁移到另外一个概率分布?所以它也叫“推土机”,类似推土机一样把分布以最小的代价变成另外一个概率分布;目标是要解一个问题,每一点移动有一个代价,要使得这个移动总代价是最低的。这个形式非常广泛,它在经济学、运筹学里面有很多用处,在图像处理里面,特别是GAN里面有很多应用。

07

动力系统与随机分析

       

动力系统主要是指稳定性的内容,比如上面这篇文章是用相平面图来研究ResNet里面动力学的稳定性。

还有随机动力系统。随机动力系统比较常用的一个问题是随机梯度下降,随机梯度下降本身是比较难研究的,也是现在深度学习理论研究里面的一个瓶颈之一。但是我如果把它加一个人为的噪声,比如这个η,变成带了噪声以后的迭代,叫“随机梯度郎之万动力学”,这样可以有些比较好的理论分析,特别是它在解一些问题时可以有一些很好的结果。

08

统计物理与非线性科学 

       

这是一个比较大的领域,这里举两个例子。最近有这样一个工作,两层神经网络可以做一个平均场近似,平均场方法几乎是物理学家的法宝,任何情况下都可以做一个平均场近似,大部分情况下都 work 得比较好。对于两层无穷宽的神经网络,我们可以平均掉一些效果,这就可以得到一个比较好的跟实际效果吻合的预测。

非线性研究里还有很多研究混沌、分形几何之类的。举例来说,上图第二项工作是用随机梯度下降训练的轨道的分形维数来控制复杂度,由此可以得到一些泛化。

 

09

信息论 

       

我们用的很多工具来自信息论,但是信息论领域很大,里面有一些内容我们不太经常用,特别是跟编码有关的。这里我举一个“信息瓶颈方法”,这是我们比较少接触的;还有“最大编码率降低原理”,是从信息论或者编码理论里面出来的一些方法。

10

博弈论

             

这个可能还有更多应用,但据我所了解,在可解释性AI里面有一个比较有名的方法叫Shapley值法。Shapley在2012年获得诺贝尔经济学奖,不过他提出这个方法是在1951年。这个想法很简单,对一个黑箱的算法,要去看黑箱里的变量是怎么work的,以及哪些变量重要的。给它做一个可视化,可以假设这些变量之间在进行搏弈,在争夺对Response的某种payoff。在这个搏弈过程中,我们想办法把它们的贡献分配给这些变量。

 

以上是简单给大家介绍这些我们平时不太会想到的工具。因为我们用惯了概率统计或者数值、或者理论计算机方面的工具,不太想接触更多工具,这里提供一些启发性的数学内容。

【AI理论】如何推动 【AI应用】

人工智能发展到现在,许多人希望能够建立一套完善的人工智能理论基础;只有这样,人工智能才可能成为一门独立的、成熟的学科。

 

但理论应该关注什么问题?林伟教授认为,这必须从实践中总结凝练。学者们从各自领域,对这一问题做出回答,以下内容根据讨论整理核心观点。

 

(一)AI理论需要“新数学”

 

明平兵教授指出虽然数学工具可以帮助建立人工智能的相关理论,但是现有的数理理论都不能完善地解决人工智能的核心问题,目前人们尚未找到人工智能的“正确”的数学表示。要想建立人工智能的理论,首先要准确地阐述出与之相关的、合适的数学问题。

 

邵嗣烘教授指出现阶段的工作大多数是在用在不同分支的数学语言对人工智能的有关问题进行描述,虽然是一种有益的尝试,但这并非核心目的。

 

邓柯教授从数据分析的角度,指出在大数据时代人们面临的数据规模巨大,同时噪音等因素带来的不确定性在数据里的呈现的样式也越来越复杂。如何描述这种不确定性并对之进行推断是一个重要的问题。现阶段的模型范式下,比如求解一个经验风险函数的最小化问题,尽管有一套相对成熟的数理方法可以用来做不确定性分析,但这个范式被过度简化了,不足以完全刻画出数据里的不确定性。因此在研究新的模型范式时,把握好刻画不确定性的程度和模型范式的复杂度之间的平衡是很有益的。

 

林宙辰教授指出当下人工智能或者机器学习的数学理论主要着眼于局部的性质,没有或者很少有着眼于整体的描述,同时也缺乏相变的理论。林宙辰教授认为提出“新”的数学有必要先对人工智能领域的整体进行了解,突破自身所在的子领域的局限性,而后提出新的概念把人工智能进行数学形式化。

 

(二)AI理论要把知识和数据“融合”

 

余山教授从脑科学的角度认为人工智能理论可以帮助脑科学领域的发展,脑科学领域的新发现也可以为人工智能理论的发展提供新思路。脑科学领域在发展中产生了海量的复杂实验数据,但单纯的脑科学知识不能完全挖掘这些数据蕴含的信息。余山教授指出把人工智能与机器学习的有关工作与脑科学结合在一起会有一个广阔的前景:从数据中挖掘知识,把数据转变成知识,让人类更好的理解大脑是如何工作的。同时,脑科学的新发现也对人工智能的发展有指导意义。例如最近脑科学发现大脑与外界环境会存在积极的交互,利用信息指导行为,而目前的卷积神经网络等深度网络都是在被动的接收信息。这或许为人工智能领域设计出新的网络结构提供新思路。

 

邓柯教授指出人工智能方法应该与其他领域的知识进行融合。目前的知识表示方式如知识图谱如何与现有的机器学习方法应当融合在同一个学习框架里,让知识与数据互相促进,从数据里挖掘出因果机制等都有广阔的发展前景。同时,当人工智能算法有了大规模商业应用时,我们应该设计更有公平性和可解释性的算法。

 

董彬教授认为人工智能理论和算法可以辅助科学探索。人工智能算法应该有可解释性,而可解释性要基于具体的对象。

 

(三)AI理论要回答传统统计/数学难题

 

董彬教授指出尽管目前的深度学习理论表明存在一个神经网络可以解决传统的统计学和计算数学里的维数灾难问题,但当下人们还不知道什么算法可以找到这个理论上存在的解。人工智能理论面临的某些困难与传统统计学和计算数学的维数灾难问题存在近似的等价性。

 

邵嗣烘教授指出机器学习的发展前沿与计算数学中NP-hard问题存在紧密的联系,而维数灾难问题也与材料学和计算量子力学的多体问题相关。


点击左下角“阅读原文”,了解更多!



推荐阅读
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • 当写稿机器人真有了观点和感情,我们是该高兴还是恐惧?
    目前,写稿机器人多是撰写以数据为主的稿件,当它们能够为文章注入观点之时,这些观点真的是其所“想”吗?最近,《南 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 数据结构与算法的重要性及基本概念、存储结构和算法分析
    数据结构与算法在编程领域中的重要性不可忽视,无论从事何种岗位,都需要掌握数据结构和算法。本文介绍了数据结构与算法的基本概念、存储结构和算法分析。其中包括线性结构、树结构、图结构、栈、队列、串、查找、排序等内容。此外,还介绍了图论算法、贪婪算法、分治算法、动态规划、随机化算法和回溯算法等高级数据结构和算法。掌握这些知识对于提高编程能力、解决问题具有重要意义。 ... [详细]
  • 本人学习笔记,知识点均摘自于网络,用于学习和交流(如未注明出处,请提醒,将及时更正,谢谢)OS:我学习是为了上 ... [详细]
  • 本文介绍了腾讯最近开源的BERT推理模型TurboTransformers,该模型在推理速度上比PyTorch快1~4倍。TurboTransformers采用了分层设计的思想,通过简化问题和加速开发,实现了快速推理能力。同时,文章还探讨了PyTorch在中间层延迟和深度神经网络中存在的问题,并提出了合并计算的解决方案。 ... [详细]
  • 词袋模型的通俗介绍
    词,袋, ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
author-avatar
苦柚甜甜
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有