热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【arXiv】2015深度学习年度十大论文

【arXiv】2015深度学习年度十大论文来源:Kdnuggets译者:王婉婷作者:MatthewMayo 由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将

【arXiv】2015 深度学习年度十大论文

来源:Kdnuggets

译者:王婉婷

作者Matthew Mayo

 

由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将之向所有人开放的地方。这里汇聚了无数科学领域中最前沿的研究,机器学习也包括在内。它反映了学术界当前的整体趋势,我们看到,近来发布的机器学习研究有许多都与深度学习有关。

 

【arXiv】2015 深度学习年度十大论文

 

Huho Larochelle博士是加拿大舍布鲁克大学(Université de Sher***e)机器学习教授,Twitter的研究员,有名的神经网络研究者,以及深度学习***爱好者。从2015年夏天开始,他就一直在撰写并发布他对于arXiv上他感兴趣的机器学习论文所做的笔记。

 

以下是 Huho Larochelle 评选出的 arXiv 深度学习年度十佳论文。

 

1、无穷维度的词向量

Infinite Dimensional Word Embeddings

 

Eric Nalisnick, Sachin Ravi

2015/11/17

 

摘要:

我们描述了一种用随机维度(stochastic dimensionality)学习词向量的方法。对于给定的某个词向量、它的语境向量(context vector)、以及它们的维度,我们的无穷Skip-Gram模型(iSG)给出了一种基于能量的联合分布(energy-based joint distribution)。通过运用追踪无穷受限玻尔兹曼机(Infinite Restricted Boltzmann Machine)变化的技术,我们定义了可数无穷范围内的词向量维度,使得向量在训练中可以根据需要增加。

 

Hugo的点评:

这是对于我们在iRBM中引入的“无穷维度(infinite dimensionality)”的一种相当有创意的用法。这并不完全是一个“即插即用(plug and play)”的方法,所以作者们需要聪明地估算所需的iSG的训练量。

 

定性结果显示出了维度数量的条件如何隐含了多义性信息,非常简单利落!分布式词向量背后的假定之一就是它们应该能够表征出一个词的多种含义,所以看到这一点得到验证是一件让人愉快的事。

 

我觉得这篇论文唯一缺少的东西就是与传统skip-gram(可能还有其他词向量方法)在某个特定任务或是词语相似性任务中进行比较。论文的第二个版本中,作者们的确提到了他们正在做这件事,所以我非常期待能看到结果!

 

2、利用可逆学习进行基于梯度的超参数优化

Gradient-based Hyperparameter Optimization through Reversible Learning

 

Dougal Maclaurin, David Duvenaud, Ryan P. Adams

2015/2/11

 

摘要:

通过在整个训练过程中不断向后链接导数(chaining derivatives backwards),我们计算了对于所有超参数交叉验证的表现的具体梯度。这些梯度让我们能够优化数以千计的超参数,包括步长(step size)和动量(momentum)、初始权重分布、丰富参数化的正则化方法(richly parameterized regularization schemes)、以及神经网络结构。

 

Hugo的点评:

这是我2015年最喜欢的文章之一。虽然展开梯度下降的一些步骤(论文中写了100次迭代)让这种方法对于大型网络来说有一些不切实际(这可能就是为什么他们考虑的是一个每层仅含50个隐藏单元的3层网络),它为我们打开了一扇有趣到不可思议的窗户,让我们看到什么样的方法才是为神经网络选择超参数的好方法。值得注意的是,为了大幅降低这种方法需要的内存,作者们在对网络权重变化进行编码的时候表现出了非同一般的创造力和智慧。

 

有不计其数的有趣实验我想推荐这篇文章读者去看一看(见论文的section3部分)。

 

“对训练集做训练”的实验——生成10个例子(每个类别一个例子),使得通过这些例子进行训练的网络的验证集损失最少——是一个相当酷的想法(它在本质上是在MNIST上学习从数字0到数字9的原型图像)。

 

要注意的是,和这篇文章提到的方法类似的这一类方法,会让自动微分工具变得极其有价值。同样由论文作者发布的自动微分Python包,Python autograd(https://github.com/HIPS/autograd,这给了我们灵感开发了我们自己的Torch autograd:https://github.com/twitter/torch-autograd),事实上就是在这个研究进行的时候开发的。

 

3、在线加速学习

Speed Learning on the Fly

 

Pierre-Yves Massé, Yann Ollivier

2015/11/8

 

摘要:

我们将学习轨迹的整体表现视为是关于步长(step size)的函数,提出了通过对步长本身做梯度下降来适应(adapt)步长。重要的是,这种适应的计算可以用很少的代价在线进行,无需向后迭代全部数据。

 

Hugo的点评:

我觉得作者们准确无误地击中了在线学习面临的挑战。如果是在线训练神经网络的话,我想这些挑战可能会变得更艰巨,现在对此几乎没有让人满意的解决方法。所以这是一个让我非常兴奋的研究方向。

 

在这篇文章里,实验中考虑到的都是相当简单的学习情景,但我并没有看到任何障碍、使这种方法无法应用到神经网络上。结果中一个有趣的地方是,“学习速率的学习速率(thelearning rate of the learning rate)”的变异(variation)是相当稳健的。

 

最后,我还没有时间来完整地消化他们其中一个理论结果:他们的近似值(approximation)实际上对应于一个和梯度下降的效果轨迹(effective trajectory)有关的梯度。但是这个结果看上去非常有趣,值得多加关注。

 

4、空间变换网络

Spatial Transformer Networks

 

Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu

2015/6/5

 

摘要:

我们引入了一个全新的可学习(learnable)模块,空间变化模块(the Spatial Transformer),使得我们能够对网络内的数据进行空间变换操作。这个模块可以被插到现有的卷积结构中,赋予神经网络主动对特征图进行空间转换的能力,无需任何额外增加训练时的监督或是对于优化步骤的调整。

 

Hugo的点评:

虽然之前就有对于DRAW做的研究,也提出了相似的方法来进行图像的学习变换,但这篇论文比DRAW的那一篇深入得多,并且让这种方法能够实现更多样的变换种类。我也非常喜欢他们在卷积神经网络中应用这种空间变换的想法,这也是那篇DRAW论文中所没有的。

 

对于这篇论文我实在挑不出什么问题,它太严谨了!

 

我能想到的唯一一件事就是,在CUB-200-2011实验中,作者们用到了ImageNet预训练的Inception网络来建立他们自己的模型。提到这一点的唯一原因是,CUB-200-2011数据集实际上包括了来自于ImageNet训练集中的图片——幸运的是,数量非常少,所以这不会改变整体的结果分析。我觉得有趣的还有,通过这种变换,学习变得越来越普遍,看上去作为深度学习研究者的我们将会需要开始在未来对这个方向投入更多关注。

 

5、聚类对于近似最大内积搜索来说是高效的

Clustering is Efficient for Approximate Maximum Inner Product Search

 

Alex Auvolat, Sarath Chandar, Pascal Vincent, Hugo Larochelle, Yoshua Bengio

2015/7/21

 

摘要:

高效的最大内积搜索(MIPS)是一项重要的任务,在推荐系统和分类大量类别的分类器中都有广泛的应用。基于局部敏感哈希算法(Locality-Sensitive Hashing, LSH)的解决方法和基于树的解决方法在近来的文献中都得到许多研究,用以在次线性时间中进行近似MIPS。这篇文章中,我们将这些方法与另一种极为简单的k-平均聚类算法的变种在解决近似MIPS任务上做了比较。

 

Hugo的点评:

由于内积是神经网络计算中的主要单元之一,我对于MIPS非常感兴趣,猜测它可能在扩大神经网络规模时扮演着重要的角色。这篇文章中提到的一个例子是,一个神经网络语言模型输出层的近似计算,对应于一个对于大量(和词汇里的词语数量一样多)单元的softmax回归。

 

“MIPS到MCSS”的变换加上球形聚类,我感到这一组合既精巧又简洁。鉴于与哈希算法相比它的结果相当出色,我认为这个方向非常值得研究。

 

【arXiv】2015 深度学习年度十大论文

 

6、在线无回溯训练递归神经网络

Training Recurrent Networks Online without Backtracking

 

Yann Ollivier, Guillaume Charpiat

2015/7/28

 

摘要:

我们引入了“无回溯(NoBackTrack)”算法来训练动态系统——例如递归神经网络——的参数。这种算法可以在在线的、没有内存的环境下工作,因此无需进行根据时间的反向传播,并且是可扩缩的,避免了为保留关于参数当前状态的完整梯度所需要的大量的运算成本和存储成本。简单任务上的初步测试显示,与保留完整梯度相比,这个算法中引入的梯度的随机近似值看上去并不会为轨迹带来太多噪音,并且也确认了NoBackTrack的类卡尔曼(Kalman-like)版本拥有良好的性能和可扩缩性。

 

Hugo的点评:

RNN的在线训练是一个巨大的尚未解决的问题。

 

目前人们使用的方法是将反向传播截到只剩几步,这只是一种摸索出来的办法。

 

这篇论文向一种更为理论式的方法做了努力。我非常喜欢作者们在公式7中展现出来的小技巧,棒极了!并且这也是这个方法的关键步骤。

 

作者们展示了初步的研究结果,他们也的确没有与截断式反向传播作比较。我非常希望他们能在未来做一下比较。另外,我不认为我对他们“随机梯度下降理论可以应用”的说法买账。

 

7、利用梯形网络进行半监督式学习

Semi-Supervised Learning with Ladder Network

 

Antti Rasmus, Harri Valpola, Mikko Honkala, Mathias Berglund, Tapani Raiko

2015/7/9

 

摘要:

我们将深度学习网络中的监督式学习和非监督式学习混合在一起。我们提出的这个模型,训练后用于同时将监督式学习和非监督式学习的反向传播成本降到最低,无需再使用一层一层处理(layer-wise)的预训练。这基于Valpola(2015)提出的梯形网络,我们将监督式方法加入其中,进一步拓展了梯形网络模型。我们展示了最终获得的这个模型在多种任务中——半监督式环境下MNIST和CIFAR-10分类,以及半监督式和全标记(full-labels)环境下置换不变(permutation invariant)的MNIST——都有顶尖水准的表现。

 

Hugo的点评:

这篇论文最让我感到兴奋的就是模型的表现。在MNIST中,只有100个标记过的例子,而这个模型的错误率却可以低到1.13%!这可以与用全部训练集训练的堆叠去噪自编码器(stacked denoising autoencoders)媲美了(虽然这是指在做ReLUs和批量正态化之前训练出的自编码器,而这篇论文的模型已经用到了这两种操作)!这与现在深度学习中的一种想法吻合:虽然深度学习领域最近应用于大体量已标记数据集的研究进展都不依赖于任何非监督式学习方法(不像深度学习2000年代中期“起步”的时候),半监督式环境下的非监督式学习可能才是最适合少量已标记数据的数据集的方法。

 

不幸的是,作者们提到了实验中有一个小问题:虽然训练时他们没有使用多少标记好的数据,模型选择时仍然用到了验证集中全部10k个标记。这当然是不够理想的。

 

8、通往基于神经网络的推理

Towards Neural Network-Based Reasoning

 

Baolin Peng, Zhengdong Lu, Hang Li, Kam-Fai Wong

2015/8/22

 

摘要:

我们提出了“神经推理器(Neural Reasoner)”,一种基于神经网络对自然语言语句进行推理的架构。对于给定的问题,神经推理器会从多个得到支持的事实中进行推测,随后为这个问题找出答案。神经推理器具有1)一种特殊的池化交互(interaction-pooling)机制,使得它能够查阅多个事实,以及2)一个深度的架构,使得它能够为推理任务中复杂的逻辑关系进行建模。在问题和事实中没有特别的结构的情况下,神经推理器能够适应不同类型的推理和不同形式的语言表述。我们的实证研究显示,神经推理器完胜现存的其他神经推理系统,在2种困难的人工任务(位置推理和路径规划)中都有不俗的优势。

 

Hugo的点评:

这篇论文对我来说最有趣的一点可能是,它展现了运用非监督的辅助任务,比如“Original”(重构原始语句),可以显著提高模型表现。对我来说这可能是这篇文章指明的最让人兴奋的研究方向。

 

我也很喜欢这篇文章中表达模型的方式。我没花多少时间就看懂了这个模型,事实上我也发现它比记忆网络(Memory Network)模型更容易理解,尽管它们其实非常相似。我想这个模型的确比记忆网络稍微简单了一点,这是一件好事。这也指出了另一种解决这个问题的方法——不只是问题的表征,事实的表征也在正向传播中不断更新。

 

9、对递归神经网络序列预测的定期采样

Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks

 

Samy Bengio, Oriol Vinyals, Navdeep Jaitly, Noam Shazeer

2015/6/9

 

摘要:

递归神经网络可以被训练用于对给定的输入生成字符序列(sequence of tokens),比如在机器翻译和读图方面最近的一些成果就是例子。现在进行这种训练的方法包括了在给定当前(递归)状态和之前的字符(previous token)的情况下最大化序列中每个元素的可能性(likelihood)。在推断时,之前的字符未知的位置就会被模型自己生成的一个字符所取代。训练和推断之间的差异会导致误差在生成序列的的过程中快速积累。我们提出了一种略微改变训练过程的学习策略,从完全使用真实的之前的字符变成大部分时候使用模型生成的替代字符。我们进行了数个序列预测任务实验,结果显示,这种方法带来了显著的提升效果。

 

Hugo的点评:

我是这篇文章的大粉丝。它指出了现行序列预测模型的重要缺陷,而且最重要的是,它提供了一个简单却有效的解决方法。我也相信,这篇文章中提出的方法在谷歌获得胜利的读图(image caption)系统中扮演了不可或缺的角色。

 

我对于Scheduled Sampling方法为何能够起效还有另一种解释。机器学习训练并不会让模型知道它产生的误差的相对质量。从机器学习的角度来说,对一个仅有1个字符错误的输出序列分配高概率,和对一个所有字符都错误的输出序列分配同样高的概率,是一样糟糕的。但是,在读图生成语句的任务中,输出一句只有一个词语与实际情况不同的句子显然是更理想的。

 

通过将模型训练得稳健于它自己产生的错误,Scheduled Sampling方法确保了误差不会累积,让做出离谱预测的可能性大大减小。

 

10、LSTM:漫游搜索

LSTM: A Search Space Odyssey

 

Klaus Greff, Rupesh Kumar Srivastava, Jan Koutník, Bas R. Steunebrink, Jürgen Schmidhuber

2015/3/13

 

摘要:

在这篇文章中,我们展示了首个在3种代表性任务上——语音识别,手写识别,和弦建模——对于8种LSTM变种做的大规模分析。每个任务中所有LSTM变种的超参数都通过随机搜索(random search)被单独地优化过,而它们的重要性是通过强大的fANOVA框架进行评估的。我们总共总结了5400次实验的结果(大约15年的CPU时间),这让我们的研究成为了LSTM网络比较分析中规模最大的一个。结果显示,没有一种变种能在标准LSTM架构的基础上表现出显著的提升。我们进一步观察到,研究中涉及的超参数几乎是独立的,于是我们提出了一些方法来改善它们。

 

Hugo的点评:

这一篇论文非常有用。我会把它列为任何想要开始使用LSTM的人都必读的文章。首先,我发现文中对于LSTM发展历史的介绍非常有趣也非常清晰。更重要的是,它既为刚涉足LSTM的人提供了良好的基础,也充满洞见地阐述了LSTM每个部分的重要性。

 

这个基于fANOVA(我直到看了这篇文章才知道这种方法)的分析非常简洁明了。也许最让人惊讶的结果就是动量看上去并不能在实际上带来太多帮助。观察超参数之间的二阶交互作用是一个很聪明的做法(结果显示联动地调整学习速率和隐藏层可能并没有想象中那么重要,这是很有启发意义的一点)。图4中展示了学习速率/隐藏层尺寸/输入中的噪音变异(input noise variance)与模型表现/训练时间之间的估测关系,也充满了有用的信息。

 

论文下载

新智元订阅号(AIera),回复0109下载。

 


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • [译]技术公司十年经验的职场生涯回顾
    本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同,令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望,认为人类有能力不断改善自己。 ... [详细]
  • 关于我们EMQ是一家全球领先的开源物联网基础设施软件供应商,服务新产业周期的IoT&5G、边缘计算与云计算市场,交付全球领先的开源物联网消息服务器和流处理数据 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 自动轮播,反转播放的ViewPagerAdapter的使用方法和效果展示
    本文介绍了如何使用自动轮播、反转播放的ViewPagerAdapter,并展示了其效果。该ViewPagerAdapter支持无限循环、触摸暂停、切换缩放等功能。同时提供了使用GIF.gif的示例和github地址。通过LoopFragmentPagerAdapter类的getActualCount、getActualItem和getActualPagerTitle方法可以实现自定义的循环效果和标题展示。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 本文介绍了使用readlink命令获取文件的完整路径的简单方法,并提供了一个示例命令来打印文件的完整路径。共有28种解决方案可供选择。 ... [详细]
  • 本文讨论了在使用Git进行版本控制时,如何提供类似CVS中自动增加版本号的功能。作者介绍了Git中的其他版本表示方式,如git describe命令,并提供了使用这些表示方式来确定文件更新情况的示例。此外,文章还介绍了启用$Id:$功能的方法,并讨论了一些开发者在使用Git时的需求和使用场景。 ... [详细]
  • 云原生应用最佳开发实践之十二原则(12factor)
    目录简介一、基准代码二、依赖三、配置四、后端配置五、构建、发布、运行六、进程七、端口绑定八、并发九、易处理十、开发与线上环境等价十一、日志十二、进程管理当 ... [详细]
  • 本文整理了Java中org.apache.solr.common.SolrDocument.setField()方法的一些代码示例,展示了SolrDocum ... [详细]
  • 像跟踪分布式服务调用那样跟踪Go函数调用链 | Gopher Daily (2020.12.07) ʕ◔ϖ◔ʔ
    每日一谚:“Acacheisjustamemoryleakyouhaven’tmetyet.”—Mr.RogersGo技术专栏“改善Go语⾔编程质量的50个有效实践” ... [详细]
  • Python正则表达式学习记录及常用方法
    本文记录了学习Python正则表达式的过程,介绍了re模块的常用方法re.search,并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具,通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]
author-avatar
雨蝶馨菲_484
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有