当前位置: 开发笔记 > 编程语言 > 正文

神经网络_图注意力网络，结构在神经网络中的复兴

作者：Sunny-阿坚 | 来源：互联网 | 2023-08-26 19:22

篇首语：本文由编程笔记#小编为大家整理，主要介绍了图注意力网络，结构在神经网络中的复兴相关的知识，希望对你有一定的参考价值。

点上方人工智能算法与Python大数据获取更多干货

在右上方 ··· 设为星标 ★&＃xff0c;第一时间获取资源

仅做学术分享&＃xff0c;如有侵权&＃xff0c;联系删除

转载于 &＃xff1a;机器之心

图注意力网络的一作 Petar Veličković接过了接力棒&＃xff0c;也在 Twitter 上晒出了自己的博士论文。这些大神是约好了吗&＃xff1f;

在一项针对 2019 年到 2020 年各大顶会论文关键词的统计中&＃xff0c;「图神经网络」的增长速度位列榜首&＃xff0c;成为上升最快的话题。

在图神经网络出现之前&＃xff0c;尽管深度学习已经在欧几里得数据中取得了很大的成功&＃xff0c;但从非欧几里得域生成的数据得到了更广泛的应用&＃xff0c;它们也需要有效的分析&＃xff0c;由此催生了图神经网络。

图神经网络最初由 Franco Scarselli 和 Marco Gori 等人提出&＃xff0c;在之后的十几年里被不断扩展&＃xff0c;先后发展出了图卷积网络&＃xff08;Graph Convolution Networks&＃xff0c;GCN&＃xff09;、图注意力网络&＃xff08;Graph Attention Networks&＃xff09;、图自编码器&＃xff08; Graph Autoencoders&＃xff09;、图生成网络&＃xff08; Graph Generative Networks&＃xff09; 和图时空网络&＃xff08;Graph Spatial-temporal Networks&＃xff09;等多个子领域。

每个子领域都有一些拓荒者&＃xff0c;比如前文提到的 Thomas Kipf&＃xff0c;他和 Max Welling 一起开辟了图卷积网络。而今天这篇博士论文的作者 Petar Veličković是图注意力网络的一作&＃xff0c;他和 Guillem Cucurull、Yoshua Bengio 等人一起完成了图注意力网络的开山之作——《Graph Attention Networks》&＃xff0c;这篇论文被 ICLR 2018 接收。发布两年后&＃xff0c;该论文被引量已超过 1300。

Petar Veličković现在是 DeepMind 的研究科学家。他于 2019 年从剑桥大学获得计算机科学博士学位&＃xff0c;导师为 Pietro Liò。他的研究方向包括&＃xff1a;设计在复杂结构数据上运行的神经网络架构&＃xff08;如图网络&＃xff09;&＃xff0c;及其在算法推理和计算生物学方面的应用。除了图注意力网络&＃xff0c;他还是《Deep Graph Infomax》的一作。在这篇论文中&＃xff0c;他和 William Fedus、Yoshua Bengio 等人提出了以无监督方式学习图结构数据中节点表示的通用方法&＃xff0c;该论文被 ICLR 2019 接收。

Petar Veličković的博士论文去年就已经完成&＃xff0c;只是最近才跟大家分享。这篇论文的题目是《The resurgence of structure in deep neural networks》&＃xff0c;共计 147 页&＃xff0c;涵盖了 Petar Veličković的上述经典工作和其他关于图神经网络的内容&＃xff0c;非常值得一读。

论文链接&＃xff1a;https://www.repository.cam.ac.uk/handle/1810/292230

机器之心对该论文的核心内容进行了简要介绍&＃xff0c;感兴趣的读者可以阅读原论文。

摘要

深度学习赋予了模型直接从原始输入数据学习复杂特征的能力&＃xff0c;完全去除了手工设计的 “硬编码” 特征提取步骤。这使得深度学习在计算机视觉、自然语言处理、强化学习、生成建模等之前互不相关的多个领域实现了 SOTA 性能。这些成功都离不开大量标注训练数据&＃xff08;「大数据」&＃xff09;&＃xff0c;这些数据具备简单的网格状结构&＃xff08;如文本、图像&＃xff09;&＃xff0c;可通过卷积或循环层加以利用。这是由于神经网络中存在大量的自由度&＃xff0c;但同时也导致其泛化能力很容易受到过拟合等因素的影响。

然而&＃xff0c;还有很多领域不适合大量收集数据&＃xff08;成本高昂或本身数据就很少&＃xff09;。而且&＃xff0c;数据的组织结构通常更加复杂&＃xff0c;多数现有的方法干脆舍弃这些结构。这类任务在生物医学领域比较常见。Petar 在论文中假设&＃xff0c;如果想要在这种环境下完全发挥深度学习的潜力&＃xff0c;我们就需要重新考虑「硬编码」方法——将关于输入数据固有结构的假设通过结构归纳偏置直接合并到架构和学习算法中。

在这篇论文中&＃xff0c;作者通过开发三种 structure‐infused 神经网络架构&＃xff08;在稀疏多模态和图结构数据上运行&＃xff09;和一种 structure‐informed 图神经网络学习算法来直接验证该假设&＃xff0c;并展示了传统基线模型和算法的卓越性能。

重新引入结构归纳偏置

这篇文章的主要贡献是&＃xff0c;缓解了在有额外结构信息可供利用的任务中可能出现的上述问题。利用关于数据的额外知识的一种常见方法是对模型应用适当的归纳偏置。

通常来讲&＃xff0c;给定特定的机器学习设置&＃xff0c;我们可以为该学习问题找到一个可能解的空间&＃xff0c;该空间中的解都具备「不错」的性能。但一般来说&＃xff0c;归纳偏置鼓励学习算法优先考虑具有某些属性的解。虽然有很多方法可以编码这些偏置&＃xff0c;但作者将目光聚焦于将结构性假设直接合并到学习架构或算法中。这可以看作一种「meet‐in‐the‐middle」方法&＃xff0c;即将经典的符号人工智能与当前的深度架构相融合。

通过直接编码数据中出现的结构归纳偏置&＃xff0c;作者使模型更加数据高效&＃xff0c;实现了预测能力的飞跃——尤其是在较小的训练数据集上。作者表示&＃xff0c;这些并不是孤立的成果&＃xff0c;而是代表了机器学习社区近期取得的一大进展。

研究问题与贡献

作者在论文中介绍了自己重点研究的三个问题&＃xff0c;以及针对这三个问题所作的具体贡献&＃xff0c;如下图 1.3 所示。

图 1.3&＃xff1a;论文主要贡献概览。

首先&＃xff0c;他提出了两种具备专门结构归纳偏置的模型&＃xff0c;用于多模态学习的早期融合。一种是网格结构输入模态&＃xff08;X‐CNN&＃xff09;&＃xff0c;另一种是序列输入模态&＃xff08;X‐LSTM&＃xff09;。

接下来&＃xff0c;他概述了图卷积层的期望结构归纳偏置&＃xff0c;并首次表明这在图注意力网络中可以得到同时满足。

最后&＃xff0c;作者提出通过 Deep Graph Infomax 算法&＃xff0c;将局部互信息最大化作为图结构输入的无监督学习目标&＃xff0c;从而引入非常强大的结构归纳偏置&＃xff0c;结合图卷积编码器来学习节点表征。

问题一

Q1&＃xff1a;研究用于多模态神经网络早期融合的可行候选层&＃xff0c;并评估它们在困难学习环境下的实际可部署性和优势&＃xff0c;特别是当输入数据稀疏或不完整时。

在该论文第三章和《X-CNN: Cross-modal convolutional neural networks for sparse datasets》、《Cross-modal Recurrent Models for Weight Objective Prediction from Multimodal Time-series Data》两篇论文中&＃xff0c;Petar 提出了两种跨模态神经网络架构&＃xff0c;可以在模态间执行早期融合&＃xff0c;二者分别在网状&＃xff08;X-CNN&＃xff09;和序列&＃xff08;X‐LSTM&＃xff09;输入模态上运行。这些方法主要靠允许单独的模态流交换中间特征&＃xff0c;从而更容易利用模态之间的相关性&＃xff0c;还能保持全连接神经网络「数据流不受限」的特性&＃xff0c;即使模型参数量要小得多。结果表明&＃xff0c;这些方法比传统方法有更好的表现&＃xff0c;特别是在训练集较小和输入不完整的情况下。

同时&＃xff0c;Petar 还重点介绍了自己参与指导的两项相关工作。一项是将特征交换泛化至 1D‐2D 情况&＃xff0c;在视听分类中获得了很好的结果。另一项工作则表明&＃xff0c;尽管像 X-CNN 这类模型超参数数量有所增加&＃xff0c;但这些超参数可以使用自动化步骤进行高效调节。

问题二

Q2&＃xff1a;研究卷积算子从图像到显示图结构的输入的泛化&＃xff08;即图卷积层&＃xff09;&＃xff0c;清晰地描绘出这种算子的期望特性。是否有模型能够同时满足所有特性&＃xff1f;这些理论上的特性在实践中能否表现良好&＃xff1f;

在论文第四章和《Graph Attention Networks》中&＃xff0c;Petar 回顾了 CNN 的优点&＃xff0c;详细阐述了图卷积层的期望特性&＃xff0c;并评估了为什么此前提出的这类模型需要牺牲掉其中的某些特性。然后&＃xff0c;作者定义了图注意力网络 (GAT) &＃xff0c;它将自注意力算子泛化至图领域。他得出的结论是&＃xff1a;在这种设定下&＃xff0c;自注意力拥有所有期望特性。作者将该模型部署到多个标准节点分类基准上&＃xff0c;发现与其他方法相比&＃xff0c;该模型的性能非常有竞争力。

问题三

Q3&＃xff1a;图卷积网络在何种程度上对于图结构数据的无监督学习是有意义的&＃xff1f;在形式化图无监督目标时&＃xff0c;是否可以有效利用图的全局结构属性&＃xff1f;

论文第五章和《Deep Graph Infomax》研究了此前基于图进行无监督表征学习的方法&＃xff08;主要基于随机游走&＃xff09;&＃xff0c;发现这些方法不太适合与图卷积编码器结合使用。

基于图像领域局部互信息最大化的之前工作&＃xff0c;作者提出了针对图结构输入的 Deep Graph Infomax (DGI) 学习算法。该无监督目标使图的每个局部组件都能完美地记住图的全局结构属性。结果表明&＃xff0c;该模型在生成节点嵌入方面与使用监督目标训练的类似编码器性能相当&＃xff0c;甚至更优。

除了介绍作者的主要研究贡献以外&＃xff0c;这篇博士论文还对深度神经网络的背景信息进行了全面概括&＃xff08;第 2 章&＃xff09;&＃xff0c;尤其提供了具备结构归纳偏置的相关模型的基本数学细节&＃xff08;从 CNN 和 RNN 再到图卷积网络&＃xff09;。论文第六章对全文进行了总结&＃xff0c;并描述了未来的工作方向。

以下是这篇博士论文的目录&＃xff1a;

---------♥---------

声明&＃xff1a;本内容来源网络&＃xff0c;版权属于原作者

图片来源网络&＃xff0c;不代表本公众号立场。如有侵权&＃xff0c;联系删除

AI博士私人微信&＃xff0c;还有少量空位

如何画出漂亮的深度学习模型图&＃xff1f;

如何画出漂亮的神经网络图&＃xff1f;

一文读懂深度学习中的各种卷积

点个在看支持一下吧

推荐阅读

io
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
io
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
sum
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
sum
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
sum
飞桨助力产业智能化：百度自研AI硬件深度融合

在2019中国国际智能产业博览会上，百度董事长兼CEO李彦宏强调，人工智能应务实推进其在各行业的应用。随后，在“ABC SUMMIT 2019百度云智峰会”上，百度展示了通过“云+AI”推动AI工业化和产业智能化的最新成果。 ... [详细]

蜡笔小新 2024-11-12 00:45:20
header
大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式

大类|电阻器_使用Requests、Etree、BeautifulSoup、Pandas和Path库进行数据抓取与处理 | 将指定区域内容保存为HTML和Excel格式 ... [详细]

蜡笔小新 2024-11-11 19:05:59
string
在 QQmlPropertyMap 的派生类中无法调用槽函数或 Q_INVOKABLE 方法？

在尝试对 QQmlPropertyMap 类进行测试驱动开发时，发现其派生类中无法正常调用槽函数或 Q_INVOKABLE 方法。这可能是由于 QQmlPropertyMap 的内部实现机制导致的，需要进一步研究以找到解决方案。 ... [详细]

蜡笔小新 2024-11-11 15:34:22
string
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
request
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
string
暑假强化训练：计算几何深度探索

经过两天的努力，终于成功解决了半平面交模板题POJ3335的问题。原来是在`OnLeft`函数中漏掉了关键的等于号。通过这次训练，不仅加深了对半平面交算法的理解，还提升了调试和代码实现的能力。未来将继续深入研究计算几何的其他核心问题，进一步巩固和拓展相关知识。 ... [详细]

蜡笔小新 2024-11-08 16:20:55
jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
jar
深入浅出解读奇异值分解，助你轻松掌握核心概念

深入浅出解读奇异值分解，助你轻松掌握核心概念 ... [详细]

蜡笔小新 2024-11-03 15:12:45
jar
开发者调查揭示：Python 备受青睐，PHP 成为最不受欢迎语言

Hired网站最新发布的开发者调查显示，Python 语言继续受到开发者的广泛欢迎，而 PHP 则被评为最不受欢迎的语言。该报告基于 Hired 数据科学团队对 13 个城市中 9800 名开发者的调查数据，深入分析了当前编程语言的使用趋势和开发者偏好。此外，报告还探讨了其他热门语言如 JavaScript 和 Java 的表现，并提供了对技术招聘市场的洞见。 ... [详细]

蜡笔小新 2024-11-03 14:37:24
case
OSChina 周末闲谈 —— 程序员的浪漫情话

在OSChina的周末闲谈栏目中，探讨了程序员特有的浪漫情话。本文不仅分享了一些程序员如何用代码表达爱意的有趣例子，还推荐了一首适合程序员聆听的歌曲——李克勤的《啜泣》。对于喜欢在编程之余享受音乐的朋友们，不妨点击链接试听一下。 ... [详细]

蜡笔小新 2024-11-09 15:46:47
sum
2019年寒假强化训练：二分算法深度解析与实战演练

在2019年寒假强化训练中，我们深入探讨了二分算法的理论与实践应用。问题A聚焦于使用递归方法实现二分查找。具体而言，给定一个已按升序排列且无重复元素的数组，用户需从键盘输入一个数值X，通过二分查找法判断该数值是否存在于数组中。输入的第一行为一个正整数，表示数组的长度。这一训练不仅强化了对递归算法的理解，还提升了实际编程能力。 ... [详细]

蜡笔小新 2024-11-08 16:59:56

Sunny-阿坚

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章