热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Paramenter-EfficientTransferLearningforNLPExcel自动启动的个人宏工作簿PERSONAL.XLSB在哪

本文主要分享【Excel自动启动的个人宏工作簿PERSONAL.XLSB在哪】,技术文章【Paramenter-EfficientTransferLearningforNLP】为【hithit

本文主要分享【Excel自动启动的个人宏工作簿PERSONAL.XLSB在哪】,技术文章【Paramenter-Efficient Transfer Learning for NLP】为【hithithithithit】投稿,如果你遇到# RE相关问题,本文相关知识或能到你。

Excel自动启动的个人宏工作簿PERSONAL.XLSB在哪

目录

Abstract

Introduction

Adapter tuning for NLP

Instantiation for Transformer Networks


Abstract

由于微调大的预训练模型很贵,且对不同的任务都需要进行针对性的微调。本文提出了适配器模块的迁移,相比微调需要优化100%的参数,适配器冻结了原始预训练模型的参数,加入了新的适配器模块,且只需要优化3%左右的参数就可以达到和微调相似的性能。

Introduction

从大模型中迁移学习在许多任务(文本分类、抽取式问答)上取得了sota的性能。在本文中,我们处理了在线设置的问题,任务以流式的方式到达。本文的目标构建一个系统可以不需要额外的训练一个新模型就可以处理好每个任务。这种需求被应用在云服务中,模型需要处理顾客的在队列中的不同类型的任务。为此,我们提出迁移学习策略可以获得紧凑和可扩展的下游模型。紧凑的模型可以为每个任务仅使用少量的额外的参数就可以解决多种任务。可扩展的模型可以增量式的解决许多新的任务并且不会忘记之前的任务。我们的模型达到了这样的效果并且没有损失性能。

NLP中两个常用的迁移学习技术式基于特征的迁移和微调两种。其中,基于特征的迁移使用预训练出来的词、句子、段落嵌入作为特征输入到神经网络中进行使用,微调的方法使用预训练好的模型权重然后在下游任务上进行微调。最近的工作表明微调比基于特征的迁移性能更好。

基于特征和微调的方法对每个任务要求新的权重。预训练模型的低层网络在任务之间被共享那么微调更加有效。然而我们提出的基于适配器的调优方法更加有参数高效性。

适配器是添加在预训练网络中间层的新模块。基于适配器的方法和基于特征以及微调的方法由以下的不同点。基于特征的方法是使用预训练的参数(例如Glove的词向量)放到下游任务中,进行调整。而微调是对预训练的模型权重直接进行调整。基于适配器的方法是向模型中加入新的参数,然后只对新的参数进行调优,冻结原始的模型参数。

基于适配的调优和多任务以及持续学习不太一样。多任务学习也是紧凑的模块,但是多任务学习要求同时学习所有的任务,而基于适配器的调优则不需要。持续学习通常要求学习一个永无止境的任务流。这种范式的缺点在于会忘记之前学习到的知识,而基于适配器的方法则不要求任务之间的交互,且冻结了共享的参数。

Adapter tuning for NLP

基于适配器的方法有以下三个优点:1、获得好的性能;2、允许顺序的训练不同的任务,不要求同时的学习所有的任务;3、只需要额外的少量参数就可以实现。这些属性在云服务的上下文中特别有用,在云服务中,许多模型需要对一系列下游任务进行训练,因此高度的共享是可取的。

适配器模块有两个主要特性:少量的参数和一个接近标识的初始化。与原始网络的图层相比,适配器模块需要较小。这意味着当添加更多的任务时,总模型大小增长相对较慢。对于适应模型的稳定训练,需要近恒等初始化;我们在3.6节对此进行实证研究。通过将适配器初始化为一个接近身份的函数,原始网络在训练开始时不受影响。在训练期间,适配器可能会被激活,以改变整个网络中激活的分布。如果不需要,适配器模块也可以被忽略;在第3.6节中,我们观察到一些适配器对网络的影响比其他的更大。我们还观察到,如果初始化偏离恒等函数太远,模型可能无法训练。

Instantiation for Transformer Networks

我们为文本transformer实例化基于适配器的调优。如下图所示,

 

 

 

本文《Paramenter-Efficient Transfer Learning for NLP》版权归hithithithithit所有,引用Paramenter-Efficient Transfer Learning for NLP需遵循CC 4.0 BY-SA版权协议。


推荐阅读
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • AI 学习路线:从Python开始机器学习
    AI 学习路线:从Python开始机器学习 ... [详细]
  • 每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖
    2019年3月27日——ACM宣布,深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖, ... [详细]
  • 商业智能_2018 商业智能 10 大趋势报告出炉:从 AI 热到 CDO 崛起,热门趋势抢先读!
    本文由编程笔记#小编为大家整理,主要介绍了2018商业智能10大趋势报告出炉:从AI热到CDO崛起,热门趋势抢先读!相关的知识,希望对你有一定的参考价值。 ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • 事务是通过MULTI命令开始的,在非事务状态下客户端发送的命令会被立刻执行,而在事务状态下,除了EXECWATCHDISCARD这几个命令外,redis会将命令保留在事务队列里。 ... [详细]
  • 文章目录1.解释一下GBDT算法的过程1.1Boosting思想1.2GBDT原来是这么回事2.梯度提升和梯度下降的区别和联系是什么?3.GBDT的优点和局限性有哪 ... [详细]
  • 我有点困惑-在这里创建ML模型。我正在尝试从“大”数据框(180列)中获 ... [详细]
  • python 英文关键词提取_如何提取文章的关键词(Python版)
    项目需求:我们采集来的文章没有关键词,在发布的时候无法设定标签,我们通过代码自动提取出文章的关键词,达到对数据加工的目的。 ... [详细]
  • 编者按:来自自江民科技的消息称,该公司创始人王江民近日因病去世,享年59岁,为了纪念这位中国反病毒事业的知名专家与老前辈,现摘录来自刘韧在知识英雄系列中采访其的一篇文章 王江民,著名的反病毒专家 ... [详细]
  • 系数|量纲_机器学习基础一文带你用sklearn做特征工程
    篇首语:本文由编程笔记#小编为大家整理,主要介绍了机器学习基础一文带你用sklearn做特征工程相关的知识,希望对你有一定的参考价值。使用sklearn做特 ... [详细]
  • NGUIusingSystem;usingUnityEng ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 本文介绍了设计师伊振华受邀参与沈阳市智慧城市运行管理中心项目的整体设计,并以数字赋能和创新驱动高质量发展的理念,建设了集成、智慧、高效的一体化城市综合管理平台,促进了城市的数字化转型。该中心被称为当代城市的智能心脏,为沈阳市的智慧城市建设做出了重要贡献。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
author-avatar
暴君1566
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有