作者:PLDLYY | 来源:互联网 | 2023-05-19 18:26
本文为大家带来的演讲主题是:从小样本学习登程,奔向星辰大海。次要分为五个局部:小样本学习办法及其重要性小样本学习的三个经典场景小样本学习的应用领域小样本学习的定义及难题PaddleFSL助你实现小样本学习王雅晴,2019年博士毕业于香港科技大学计算机科学及工程学系,钻研方向为机器学习,导师是倪明选传授和郭天
本文为大家带来的演讲主题是:从小样本学习登程,奔向星辰大海。次要分为五个局部:
- 小样本学习办法及其重要性\
- 小样本学习的三个经典场景
- 小样本学习的应用领域
- 小样本学习的定义及难题
- PaddleFSL助你实现小样本学习
王雅晴,2019年博士毕业于香港科技大学计算机科学及工程学系,钻研方向为机器学习,导师是倪明选传授和郭天佑传授,次要聚焦在小样本学习方向。
WAVE SUMMIT+2021深度学习开发者峰会
【科技翻新,女姓力量】论坛
自读博以来,有多篇一作成绩在ICML、NeurIPS、TheWebConf、EMNLP、TIP等顶会顶刊发表。曾撰写的小样本学习综述,是ACM Computing Surveys 2019-2021年最高引论文,也是往年的ESI高被引论文。
此外,她负责开发的小样本学习工具,在GitHub上取得1.1K+的关注,如果有感兴趣的同学,能够去看一下这个链接:https://github.com/tata1661/FSL-Mate/tree/master/PaddleFSL
王雅晴退出百度以来,深耕在小样本学习畛域,次要是对于如何疾速泛化到仅蕴含大量标注数据的新工作下面。
图1
小样本学习办法
及其重要性
三个角度解决小样本学习:
- 首先钻研相干的实践学习根底,比如说元学习,图学习。
- 其次在百度咱们还须要思考如何落地理论利用, 比如说新药发现、文本分类、用意辨认、冷启动举荐、手势辨认等等。
- 最初是为了帮忙大家可能疾速的上手小样本学习,实现小样本学习办法的疾速原型化,还实现了通用小样本学习工具。它是基于PaddlePaddle研发进去的,外面提供了简略易用又稳固的,小样本学习的经典办法,目前曾经蕴含了CV和NLP外面的经典利用。
说到小样本学习,就要先谈一下深度学习。自2015年以来,深度学习实现了每每冲破,AlphaGo战胜了人类围棋冠军。自从ResNet开始,机器学习模型在ImageNet这样的大数据上的标注成果,比人类标注者的误差更低。然而这些深度学习模型的胜利,其实是须要大量的标注数据,和高性能的计算设施。
比如说AlphaGo,它训练自一个蕴含3000万对奕历史的数据库,而且还能一直自我对奕。ResNet训练自ImageNet上,这样一个常见的,蕴含上百万标注图片的的大数据集。所以这也使得,在绝大多数场景外面,这两个条件“大量的标注数据”和“高性能的计算设施”是很难被满足的,这也是须要进行小样本学习的起因。
图2
小样本学习的三个经典场景
首先,介绍一下小样本学习的三个经典场景。
1.为了让人工智能更像人,具备触类旁通的能力,以图3中最右边的图片为例。给你一个独轮车,即便一个小孩,也能够轻易从一堆图片当中,辨认进去哪张也是独轮车。不论是把独轮车歪斜、翻转,还是把车杆加粗轮子变大,依然能够看出它还是独轮车。
此外,如果给你独轮车、自行车、摩托车,人类的孩童也很容易看出,不同车之间的共性。比方,都有轮子、车把手。这样的触类旁通的能力,当初的人工智能还是缺失的。所以小样本学习,始终是学术界的钻研重点,指标就是可能升高人工智能和人类智能之间的差距。
图3
2. 小样本学习的重点场景,就是为了升高数据的收集、标注、解决和计算成本。 现在,很多开发者会遇到海量且没有标签的数据,而且蕴含着大量的噪声。这也使得真正想用这些数据挖掘出一些常识、信息,是件很艰难的事件。
一般来说,须要找数据众包的人员,帮忙你标数据。然而标数据,首先它须要花很长时间,单方之间须要进行多轮的迭代。最终数据的品质,也依然会蕴含,标数据人的一些主观因素。
所以如果可能利用小样本学习,就能够把数据的收集、标注的老本,给大大降低下来。只须要收集很小的数据集,这个数据集只须要蕴含大量的、高质量的标注样本,就能够训练一个模型,来做回归预测和分类。
3. 解决一些常见的状况。 比如说危险的、波及到隐衷的、伦理的。一个比拟经典的场景,就是新药发现。在新药发现外面,心愿可能从成千上百万的化合物当中,找到合乎想要的性质的那些化合物。比如说有较低的毒性,有较高的水溶性之类的。
然而新药发现,自身是十分耗时的过程。可能要花十来年的工夫,还要花很高的费用,去招一些受试者过去进行测试。但实际上到最初,真正可能进入到实验室外面测试的样本,自身数量就很少。这使得新药发现,是一个小样本学习的问题。(如图3)
小样本学习的应用领域
因为小样本学习,真的是太常见了,所以目前各行、各业、各个领域,都呈现了小样本学习的身影。最早呈现的就是CV,也就是计算机视觉,如图片分类、物体辨认、图片切割。
起初在NLP畛域也呈现了,比如说会做一些比拟经典的关系抽取、NER这些工作。最近随着预训练模型的呈现,大家都会想去利用预训练模型。因为这些预训练模型,个别都是训练在一个大的语料库下面,外面有丰盛的语义信息和先验常识。
怎么通过微调或者构建一些模板,把它可能调到一些新的工作,即便它只蕴含大量的标注数据,这也是最近NLP畛域的钻研重点。
除了NLP畛域,还有像常识图谱,比方怎么解决日渐呈现的新的实体、新的关系,这都能够通过小样本学习的办法搞定。
图4
另外还有方才提到的,新药发现和机器人学。比如说,教机器狗让它往左走两步,或者只展现一两个手势,它就晓得我想要干什么,这都是要用到小样本学习的。
小样本学习的定义及难题
上面给出小样本学习的比拟谨严的定义,是依据1997年Tom Mitchell传授的经典机器学习定义来定义的。
什么是机器学习?对某一类工作T,如果一个计算机程序,在该工作T上与P度量的性能,随着教训E的减少而进步,就称这个计算机的程序,是在从教训E当中学习。
小样本学习,是机器学习的一种。然而比拟特地的是,它外面的教训,只有很大量的监督信号。比拟常见的监督信号,就是样本的标签。
图5
学习的现实,是心愿可能升高模型的冀望危险。也就是在将来不论有什么样的样本,都可能很好的预测进去。但这个模型的联结散布,个别是未知的,所以就要预计它。
在机器学习外面,个别是优化教训危险。然而,大家看到公式下面的教训危险,是通过训练集外面有多少样本来求的。如果是训练样本外面,只有很大量的标注数据。这个I的数量很小的话,最终只会失去十分不牢靠的,最小化的危险教训估值,使小样本学习的确是很艰难的问题。
然而,这并不是不可能被解决的,解法就是咱们将教训E当中的标注信息,和一些先验常识联合。比如说,方才提到的NLP畛域的预训练模型,把这些先验常识联合当前,就能使得工作T的学习变得可行。个别有三个角度。
- 通过这些先验常识,来生成更多的标注样本,用于训练。
- 通过先验常识,限度模型的空间复杂度。
- 还能够有这样一种先验常识,让它通知咱们,怎么设计一个经济的搜寻策略。比如说,在假如空间这个大H下面,应该从哪个点开始搜?往哪个方向去搜?以什么样的速度搜?这些,都会使最终失去的搜寻策略,可能更经济无效一点。只有几个样本,就可能失去很好的成果。
这些办法,都被具体总结和梳理在小样本学习的综述外面。这是ACM Computing Surveys最近两年的最高引论文,也是ESI往年的高被引论文。
PaddleFSL
助你实现小样本学习
方才介绍了,通用的小样本学习的办法。这边就介绍一下,怎么通过小样本学习工具包PaddleFSL,来实现小样本学习。
图6
PaddleFSL是一个基于飞桨的小样本学习工具包。在这个工具包外面,提供了简略、易用、稳固的经典小样本学习的办法,并反对拓展新的小样本学习办法。
此外,还提供了对立的数据集解决,使模型成果比拟更加容易。而且提供了十分详实的正文,让你能够轻易定制新的数据集。目前曾经蕴含了,CV和NLP小样本的经典利用,并且依靠飞桨的凋敝生态,一直扩大到新的畛域上。
从这里给出的PaddleFSL的整体框架图上,能够看出当初反对像图片分类、关系抽取、通用自然语言解决等一系列的工作。并蕴含了这三个工作当中,所波及到的一些经典数据集。
为了解决不同的利用,也提供不同的特色抽取器,来供大家抽取特色。
比方CNN是用来抽图片的,另外还反对所有PaddleNLP外面提供的预训练模型。此外,在模型库也提供了经典的小样本学习的办法。因为PaddleFSL是部署在飞桨下面的,因而也同样反对跨平台的部署。
这里给出了小样本图片分类后果的复现。应用PaddleFSL在ProtoNet、RelationNet、MAML、ANIL这四个办法下面,在Omniglot、Mini-ImageNet两个经典的数据集下面,都能够复现出比文章汇报更好,或者至多是匹敌的成果。
上面做一个总结,退出百度研究院以来,王雅晴次要是在做小样本学习方向。在实践钻研方面,文章当初也被ACM Computing Surveys,还有WWW录用。此外,在小样本的理论利用,特地是新药发现工作,被往年NeurIPS 2021接管为Spotlight Paper。而小样本短文本分类的文章,被EMNLP接管为长文。用意辨认和冷启动方面也都在进行推动,目前在审稿阶段。
另外对于小样本手势辨认的工作,取得了国家自然科学基金的面上我的项目反对。最初再提一下PaddleFSL,这个包当初取得了1100多的Star,以及1万多的文章浏览。
借此机会,心愿对小样本学习感兴趣的同学能够扫描下方二维码理解更多,并一起进行前沿的钻研和实际的落地。
图7