热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

ML如何做科学发现?牛津大学268页博士论文详述科学机器学习内涵

新智元报道作者:专知编辑:桃子【导读】现在,AI4Science是个热门的话题。如何把机器学习方法用在科学领域是个比较实际的问题。科学机器


  新智元报道  

作者:专知

编辑:桃子

【导读】现在,AI4Science是个热门的话题。如何把机器学习方法用在科学领域是个比较实际的问题。科学机器学习(SciML)的领域。SciML的中心目标是将现有的科学理解与ML更紧密地结合起来,生成强大的ML算法,这些算法由我们的先验知识提供信息。非常值得关注!

机器学习(ML)已经使我们实践科学的方式发生了根本性的转变,许多人现在把从数据中学习作为他们研究的重点。随着我们想要研究的科学问题的复杂性的增加,以及当今科学实验产生的数据量的增加,ML正在帮助自动化、加速和增强传统的工作流程。站在这场革命前沿的是一个被称为科学机器学习(SciML)的领域。SciML的中心目标是将现有的科学理解与ML更紧密地结合起来,生成强大的ML算法,这些算法由我们的先验知识提供信息。

c528169b58331a81097892e54212ccf7.png

论文地址:https://ora.ox.ac.uk/objects/uuid:b790477c-771f-4926-99c6-d2f9d248cb23

目前存在大量将科学原理纳入ML的方法,人们对SciML解决科学中一些最大挑战的期望越来越高。然而,该领域正在蓬勃发展,许多问题仍在出现。一个主要的问题是SciML方法是否可以扩展到更复杂的现实问题。许多SciML研究正处于概念验证阶段,在这个阶段,技术将在简化的、简单的问题上进行验证。然而,了解它们在更复杂的问题上的可扩展性对于它们的广泛应用至关重要。这个问题是本文的中心问题。

首先,针对月球科学和地球物理领域的三个复杂的、真实的、特定领域的案例研究设计了多种不同的物理知识机器学习方法,并评估了它们的性能和可扩展性。其次,评估和改进了物理信息神经网络(一种流行的通用SciML方法)求解具有大区域和高频解的微分方程的可扩展性。讨论了这些研究的共同观察结果,并确定了显著的优势和潜在的限制,突出了设计可扩展的SciML技术的重要性。

导论

机器学习(ML)在科学领域引起了一场革命。传统上,科学研究围绕着理论和实验:一个人提出一个手工制作的和定义良好的理论,然后使用实验数据不断完善它,并分析它以做出新的预测。但今天,许多人都把从数据中学习作为他们研究的重点。在这里,世界的模型是通过ML算法从数据中学习的,现有的理论是不需要的。这种转变的发生有多种原因。

首先,ML领域在过去十年中经历了指数级增长,这一激增背后的主要驱动因素通常被归因于深度学习的突破[Goodfellow et al.,2016]。一些重要的发现,如使用更深层次的网络设计和更好的训练算法,以及更强大的计算架构的可用性,已经导致深度学习技术在广泛问题上的性能迅速提高[Dally et al.,2021年]。现代ML算法现在能够学习和解决难以置信的复杂任务,从自动驾驶汽车[Schwarting et al.,2018年]到击败世界级围棋选手[Silver et al.,2018年]。

伴随着这些进步,今天的科学实验产生了越来越多的数据,研究越来越复杂的现象[Baker et al., 2019, Hey et al., 2020]。人类和我们的传统工作流程对所有这些数据进行分析和理论化正在迅速变得不可能,不久之后,科学实验很可能会受到他们从已有数据中提取见解的能力的限制,而不是他们可以收集什么数据[Baker et al., 2019]。鉴于ML可以提供强大的工具,许多研究人员正在转向ML来帮助自动化、加速和增强传统的工作流程。在过去十年中,新的ML算法和数据可用性的结合导致了一些重大的科学进步。例如,ML已经被用于比以往任何时候都更准确地预测蛋白质结构[Jumper et al., 2021],从神经活动合成语音[anummanchipalli et al., 2019],以及改进量子多体系统的模拟[Carleo和Troyer, 2017]。事实上,现代的ML算法现在已经被应用到科学的几乎每一个方面,这个时代的一个决定性研究问题已经变成:「解决问题X,并将ML应用到它上面」,随之而来的是有趣且常常令人兴奋的结果。

然而,尽管有这些进步,但ML,特别是深度学习算法的各种缺点在ML领域已经具体化。例如,尽管它们能够学习高度复杂的现象,但深度神经网络通常被视为「黑箱」,人们缺乏对它们如何表示和推理世界的理解。这种不可解释性是一个关键问题,特别是对于需要对网络预测进行论证的安全关键应用[Gilpin et al.,2019,Castelvecchi, 2016]。此外,关于如何设计适合特定任务的深度学习算法,几乎没有理论指导。深度神经网络架构的选择主要是根据经验进行的,尽管元学习和神经架构搜索领域开始提供更多自动化的方法[Elsken et al.,2019年,Hospedales et al.,2021年]。最后,尽管深度神经网络表达能力很强,但它们受到训练数据的限制,在训练分布之外通常表现不佳。学习在新任务中表现良好的世界可泛化模型是更通用人工智能(AI)系统的一个关键特征,也是ML领域的一个关键突出挑战[Bengio et al.,2021]。

当在科学问题中使用ML时,研究人员开始遇到这些限制[Ourmazd, 2020, Forde和Paganini, 2019]。鉴于深度神经网络的泛化能力较差,一个关键问题是它们是否真正「学习」了科学原理。一个好的科学理论被期望能在实验数据之外做出新颖而准确的预测,然而深度神经网络在训练数据之外很难做出准确的预测。即使一个网络可以做出可靠的预测,考虑到它们的不可解释性,从它们中提取任何有意义的科学见解可能是具有挑战性的。

另一个主要问题是,许多当前的机器学习工作流完全用学习的模型取代了传统的科学模型。虽然这可能很有用,但这些纯数据驱动的方法「抛弃」了我们大量的先验科学知识。

重要的一点是,对于许多问题,有一个现有的理论可以建立,而不是从头开始。在一个传统上基于明确的理论和实验之间紧密相互作用的领域,一些人认为上述限制使当前的ML方法不可接受。这些担忧促使形成了一个快速发展的新领域,称为科学机器学习(SciML) [Baker et al., 2019, Karniadakis et al., 2021, Willard et al., 2020, Cuomo et al., 2022, Arridge et al., 2019, Karpatne et al., 2017a]。SciML的目标是将现有的科学知识和ML融合在一起,生成更细微的ML算法,这些算法由我们的先验知识提供信息,如图1.1所示。这一领域的关键论点是,通过这样做,我们将最终获得更强大的科学研究方法。传统方法和ML方法各有优缺点,两者的结合可能比其中一种更有效。例如,在进行数据同化时(例如在气候模型中),可以使用传统物理模型提供先验知识,而ML可用于解释数据依赖性和其他未知物理。

6dfcf1eb407ac29e3ae505e22d967783.png

图1.1:科学机器学习(SciML)概述。SciML旨在将ML与科学知识紧密结合,以便为科学研究生成更强大、鲁棒和可解释的ML方法。

人们对这一领域的期望正在迅速增长,目前正在提出和研究大量的方法和许多创新策略,以将科学知识融入ML。这些方法的范围从预期的科学任务(例如模拟、反演和控制方程发现),到不同的方法来合并科学原理(例如通过深度神经网络的架构、其损失函数和混合模型的使用),以及科学原理被强加的程度(例如通过硬约束或软约束)。我们将在第2章中详细回顾这些方法。许多方法使用来自物理学的思想来通知其在SciML的子领域称为物理信息机器学习(PIML)的ML算法[Karniadakis等人,2021]。

到目前为止,SciML 取得了一些初步的成功。它帮助我们进行了强大的模拟[Raissi al.,2019],发现了复杂物理系统的控制方程[Kutz和Brunton, 2022],在反演问题中精确地反演基础参数[Arridge等人,2019],并在广泛的领域中无缝地将传统工作流与学习过的组件[Rackauckas等人,2020,Thuerey等人,2021]。尽管有早期的希望,但SciML领域仍处于起步阶段,出现了许多重要的问题,例如;我们应该如何实施科学原则?我们应该如何平衡数据驱动模型的可解释性的缺乏和现有理论的清晰性?是否存在可以跨科学学科应用的总括的SciML技术?SciML能否为ML领域提供新的视角和思路?对于复杂的现实世界问题,SciML技术的扩展性有多好?本文主要研究最后一个问题,具体讨论如下。

在本文中,我们主要采用两种方法来研究上述子问题。首先,针对前3个子问题,使用复杂的、真实的、特定领域的案例研究来考察多种不同的PIML方法的性能和可扩展性。对于每个子问题,我们提出了一个案例研究,提出了一种PIML技术(或各种PIML技术)来解决它,并评估该技术如何扩展到这种设置。其次,针对最后一个子问题,我们专注于单一的通用PIML技术,并评估和改进其可扩展性。前三个子问题分别在本论文的单独一章(分别为第3 ~ 5章)中进行研究,其案例研究均来自月球科学和地球物理学领域。最后一个子问题将在第6章进行研究。最后,我们在第七章中讨论和总结了每一章对我们主要研究问题的影响。

SciML方法谱系。这张图显示了本章中介绍的不同类型的SciML方法对科学知识的「强」程度。注意,科学约束的强度是一个相当模糊的概念;在这个图中,我们将其定义为SciML方法与传统工作流的接近程度。中间的方法同样将ML与传统工作流的某些方面结合起来,例如在循环方法中,将传统迭代求解器与ML模型交织在一起。此外,我们的作业有些主观,所以这个数字只是为了表达总体趋势。

2463a61c6a175c6f8001c10ed8f31406.png

e02d331ffead390495da12ebf2bca288.jpeg

4258d42e86353398e3d2484fb7127a2d.jpeg

END

a777bad9301ebc5d7bbec395eed89ab5.png

分享

收藏

点赞

在看

bc18b21468324dac1a60e05a6d483b2e.gif


推荐阅读
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 图像分割技术在人工智能领域中扮演着关键角色,其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析,探讨了它们在不同应用场景中的优缺点和适用范围,为研究人员和从业者提供了有价值的参考。 ... [详细]
  • 2019年斯坦福大学CS224n课程笔记:深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析
    本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理(NLP)领域的应用,重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析,深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]
  • 本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节,作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识,为后续的机器学习应用打下坚实的基础。 ... [详细]
  • 单元测试:使用mocha和should.js搭建nodejs的单元测试
    2019独角兽企业重金招聘Python工程师标准BDD测试利器:mochashould.js众所周知对于任何一个项目来说,做好单元测试都是必不可少 ... [详细]
  • 在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决
    在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤,并针对常见的问题提供了有效的解决方案。通过本文的指导,读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]
  • 在机器学习领域,深入探讨了概率论与数理统计的基础知识,特别是这些理论在数据挖掘中的应用。文章重点分析了偏差(Bias)与方差(Variance)之间的平衡问题,强调了方差反映了不同训练模型之间的差异,例如在K折交叉验证中,不同模型之间的性能差异显著。此外,还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡,以提高模型的泛化能力。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • 在Python编程中,掌握高级技巧对于提升代码效率和可读性至关重要。本文重点探讨了生成器和迭代器的应用,这两种工具不仅能够优化内存使用,还能简化复杂数据处理流程。生成器通过按需生成数据,避免了大量数据加载对内存的占用,而迭代器则提供了一种优雅的方式来遍历集合对象。此外,文章还深入解析了这些高级特性的实际应用场景,帮助读者更好地理解和运用这些技术。 ... [详细]
  • 视觉图像的生成机制与英文术语解析
    近期,Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机(MLP)在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制,并解析了相关技术术语,为理解视觉图像生成提供了新的视角和方法。 ... [详细]
  • 本文介绍了如何在 Spring 3.0.5 中使用 JdbcTemplate 插入数据并获取 MySQL 表中的自增主键。 ... [详细]
  • 本文详细介绍了Java反射机制的基本概念、获取Class对象的方法、反射的主要功能及其在实际开发中的应用。通过具体示例,帮助读者更好地理解和使用Java反射。 ... [详细]
  • 解决Bootstrap DataTable Ajax请求重复问题
    在最近的一个项目中,我们使用了JQuery DataTable进行数据展示,虽然使用起来非常方便,但在测试过程中发现了一个问题:当查询条件改变时,有时查询结果的数据不正确。通过FireBug调试发现,点击搜索按钮时,会发送两次Ajax请求,一次是原条件的请求,一次是新条件的请求。 ... [详细]
  • 深入解析LSTM理论在深度学习中的应用与核心机制
    在深度学习领域,长短期记忆(LSTM)网络作为递归神经网络的一种改进形式,能够有效捕捉时间序列数据中的长期依赖关系。与传统的神经网络不同,LSTM通过引入门控机制,使得模型能够在处理当前时刻的信息时,选择性地保留或遗忘之前时刻的数据,从而更好地理解上下文信息。例如,在对电影场景进行逐帧分类时,LSTM能够利用先前帧的信息来提高分类的准确性。这种机制不仅增强了模型的时间感知能力,还显著提升了其在自然语言处理、语音识别等任务中的表现。 ... [详细]
author-avatar
裴潇艳
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有