【论文精读】CurriculumLearning

作者：zeng-abee | 来源：互联网 | 2023-09-07 09:26

CurriculumLearning论文原文：CurriculumLearning课程学习（CurriculumLearning）由M

Curriculum Learning

论文原文&＃xff1a;Curriculum Learning

课程学习&＃xff08;Curriculum Learning&＃xff09;由Montreal大学的Bengio教授团队在2009年的ICML上提出&＃xff0c;主要思想是模仿人类学习的特点&＃xff0c;由简单到困难来学习课程&＃xff08;在机器学习里就是容易学习的样本和不容易学习的样本&＃xff09;&＃xff0c;这样容易使模型找到更好的局部最优&＃xff0c;同时加快训练的速度。

Abstract

人类和动物在学习时学习材料按照由易到难的顺序呈现是学习效果会更好&＃xff0c;在机器学习中课程学习的概念借鉴了这种思想。在非凸问题中&＃xff0c;课程学习展现出了巨大的性能提升和很强的泛化能力。作者认为课程学习的策略能够加速收敛速率以及在非凸优化中找到更好的局部最优点&＃xff08;可以看成是continuation method&＃xff09;。

1. Introduction

介绍了课程学习的思想&＃xff0c;并通过动物训练shaping的模式和循环网络学习语法的例子说明&＃xff0c;学习要由易到难循序渐进。

Contributions&＃xff1a;

作者通过有关视觉和语言的任务证明了很简单的多阶段课程学习的策略就能够实现泛化能力的提高和收敛速度的加快。
另外解释了课程学习为什么有这些优势。
实验表明课程学习的作用类似于某种正则项。

2. On the difficult optimization problem of training deep neural networks

在这一部分作者在深度神经网络中讨论课程学习策略对局部最优问题的处理。深度神经网络就具有层次的结构&＃xff0c;使用多层级的抽象特征能够让系统根据数据自动推断出输入输出之间的映射关系&＃xff0c;从而排除人工特征的设计。然而&＃xff0c;训练深度结构的神经网络却很困难&＃xff0c;一些学者的研究证明使用一些无监督预训练策略来确定监督训练的初始化参数可以帮助深度网络的训练得到更好的测试误差&＃xff08;泛化能力增强&＃xff09;。作者使用课程学习的策略来进行预训练&＃xff0c;以便找到更好的局部最优以及提高收敛的速度。

3. A curriculum as a continuation method

介绍了Allgower和Georg的continuation method的思想&＃xff0c;对于一个优化问题 $CλC_\lambda$ &＃xff08; $λ\lambda$ 参数反映了优化问题难易程度&＃xff09;&＃xff0c;先优化一个较为平滑的目标 $C_0$ &＃xff0c;这个目标反映了问题整体的景象&＃xff0c;然后逐渐增加 $λ\lambda$ 并且保持 $θ\theta$ 是 $CλC_\lambda$ 的局部最优&＃xff0c;最终 $C_1$ 就是实际想要优化的问题。

课程学习就是这种思想&＃xff0c;根据训练样本训练的难易程度&＃xff0c;给不同难度的样本不同的权重&＃xff0c;一开始给简单的样本最高权重&＃xff0c;他们有着较高的概率&＃xff0c;接着将较难训练的样本权重调高&＃xff0c;最后样本权重统一化了&＃xff0c;直接在目标训练集上训练。

下面介绍公式化这种思想的一种方法&＃xff1a;

首先重新分配了在第 $λ\lambda$ 步&＃xff08; $0≤λ≤10\leq\lambda\leq1$ &＃xff09;训练时的样本分布 $Qλ(z)Q_\lambda(z)$ ,

在这里插入图片描述

其中&＃xff0c;

在这里插入图片描述

根据上面的描述有当 $λ&＃61;1\lambda&＃61;1$ 时&＃xff0c;有

在这里插入图片描述

定义&＃xff1a;若训练时的样本分布 $QλQ_\lambda$ 的熵和用于重新分配分布的权重 $Wλ(z)W_\lambda(z)$ 是递增的&＃xff0c;那么 $QλQ_\lambda$ 就是一个课程&＃xff0c;即满足以下两个条件&＃xff1a;

在这里插入图片描述

一个简单的理解就是利用课程改变训练样本中的分布&＃xff0c;一开始简单的样本数量很多&＃xff0c;出现的概率大&＃xff0c;随着 $λ\lambda$ 增大&＃xff0c;分布与原始数据集越来越接近&＃xff0c;最终和原始数据一致。

到目前为止&＃xff0c;还没有介绍如何确定课程&＃xff0c;即如何确定训练样本的难易程度&＃xff0c;下面的实验将介绍几种定义课程的简单方式。

4. Toy Experiments with a Convex Criterion

4.1 Cleaner Examples May Yield Better Generalization Faster

这里作者通过一个小实验说明了首先在简单样本上训练的好处。作者在一个拥有50个训练样本点的数据集上训练一个SVM进行二分类任务&＃xff0c;实验结果表明&＃xff0c;在简单的数据上训练的泛化误差要优于在随机选取数据上的泛化误差&＃xff08;16.3% vs 17.1%&＃xff09;。简单样本是根据 $y w^{'} x > 0$ 来选取的&＃xff0c;因为对于SVM来说&＃xff0c;满足 $y w^{'} x > 0$ 条件的样本点都是正确分类的&＃xff0c;可以看作是没有噪声比较容易区分的。

有些人可能会质疑困难的样本含有更多的信息&＃xff0c;然而困难的样本往往是无用的&＃xff0c;因为他们可能含有噪声&＃xff0c;会干扰训练效果。

4.2 Introduction Gradually More Difficult Examples Speeds-up Online Training

这里作者使用两种方式来说明从简单到困难的课程学习策略的有效性。

根据样本中不相关&＃xff08;irrelevant&＃xff09;数据的个数。
$y w^{'} x$ 的margin大小&＃xff0c;margin越大说明特征越明显越容易区分。

实验结果如下&＃xff1a;

在这里插入图片描述

5. Experiments on shape recognition

这个实验关于三角形、长方形和椭圆形的形状的识别。作者用了两组数据集来区分样本的难易。一组数据集包含了等边三角形、正方形和圆形&＃xff08;BasicShapes&＃xff09;&＃xff0c;另一组中的形状并不那么规则&＃xff08;GeomShapes&＃xff09;。为了说明课程学习的效果&＃xff0c;作者采取了以下策略&＃xff1a;

将仅使用GeomShapes数据集训练的结果作为baseline。
开始先用BasicShapes数据集中的数据进行训练&＃xff0c;为了区分难易程度&＃xff0c;分别训练0、2、4……、128个epochs&＃xff08;0 epoch就是baseline&＃xff09;&＃xff0c;然后再用GeomShapes训练至256个epochs&＃xff0c;如果validation error到达设定的最小值就提前停止。结果如下图所示&＃xff1a;

在这里插入图片描述

但是这样的结果可能是因为相比没有课程学习的训练&＃xff0c;课程学习的方式看到了更多的样本。因此作者又进行了两个实验&＃xff0c;一个是使用BasicShapes和GeomShapes两个数据集的数据在没有课程学习策略的情况下进行训练&＃xff08;这样看到的数据就一样多了&＃xff09;&＃xff1b;另一个是只使用BasicShapes数据集中的数据进行非课程学习的训练&＃xff08;这样就验证了并非BasicShapes中的数据比较好&＃xff09;&＃xff0c;两个对比实验的结果都不好&＃xff0c;从而说明的课程学习的效果。

6. Experiment on language modeling

这个实验是根据句子上下文来预测下一个单词是什么。作者使用了Collobert和Weston的策略。

在这里插入图片描述

这里对于一个可能的文本 $s$ 我们想让 $f (s)$ 尽量大&＃xff08;最大为1&＃xff09;&＃xff0c;这样其他文本对应的 $f(s^w)$ 就会尽量小&＃xff0c;那么 $C_s$ 就会接近于零。课程学习的策略是根据是不是常见的词汇&＃xff0c;词典中每次增加5000个常见的词语&＃xff0c;只要每组词汇中有词不在考虑的范围内&＃xff0c;就丢掉这组词汇。没有课程学习策略的就直接从20000个单词中学习。下面是训练的效果&＃xff1a;

在这里插入图片描述

7. Discussion and Future Work

作者认为课程学习之所以有效可以从以下两个方面解释&＃xff1a;

在训练初期能够花更少的时间在有噪声的和很难去训练的数据上
可以引导训练走向更好的局部最优和更好的泛化效果&＃xff1a;课程学习可以被看作是一种特殊的continuation method。

另外&＃xff0c;如何寻找更好的课程将是未来的研究方向。

推荐阅读

search
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
search
圣诞节到了，智能菌想送你一份礼物

关注网易智能，聚焦AI大事件，读懂下一个大时代！（机器学习算法地图见文末）圣诞节的赠书活动来了！ ... [详细]

蜡笔小新 2024-09-29 11:06:55
go
AI 学习路线：从Python开始机器学习

AI 学习路线：从Python开始机器学习 ... [详细]

蜡笔小新 2024-09-28 14:04:30
go
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
go
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
go
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
go
这是2年的自学编码教给我的

如果您想到达任何地方，就一定不要害怕探索。我的背景我在2001年只有4岁。那是我第一次使用计算机“联机”的时候。从一开始我就一直是一个好奇的孩子。我知道如何建立拨号连 ... [详细]

蜡笔小新 2024-09-28 18:38:55
post
开发笔记:深度探索！Android之OkHttp网络架构源码解析

篇首语：本文由编程笔记#小编为大家整理，主要介绍了深度探索！Android之OkHttp网络架构源码解析相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-28 17:47:06
post
商业智能_2018 商业智能 10 大趋势报告出炉：从 AI 热到 CDO 崛起，热门趋势抢先读！

本文由编程笔记#小编为大家整理，主要介绍了2018商业智能10大趋势报告出炉：从AI热到CDO崛起，热门趋势抢先读！相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2024-09-26 16:56:58
post
生成模型自编码器（Autoencoder，AE）

自编码器（Autoencoder，AE）基本意思就是一个隐藏层的神经网络，输入输出都是x，并且输入维度一定要比 ... [详细]

蜡笔小新 2024-09-26 10:19:40
go
【历史上的今天】5 月 18 日：微软反垄断诉讼；携程旅行网上线；谷歌首次公布 TPU

整理|王启隆透过「历史上的今天」，从过去看未来，从现在亦可以改变未来。今天是2022年5月18日，在1939年的今天，彼得 ... [详细]

蜡笔小新 2024-09-24 17:15:58
go
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
sum
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
go
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
sum
也就是|小窗_卷积的特征提取与参数计算

篇首语：本文由编程笔记#小编为大家整理，主要介绍了卷积的特征提取与参数计算相关的知识，希望对你有一定的参考价值。Dense和Conv2D根本区别在于，Den ... [详细]

蜡笔小新 2023-12-13 12:59:48

zeng-abee

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章