热门标签 | HotTags
当前位置:  开发笔记 > 后端 > 正文

【论文泛读200】通过适配器使用预训练语言模型进行稳健的迁移学习

贴一下汇总贴:论文阅读记录论文链接:《RobustTransferLearningwithPretrainedLanguageModelsthroug

贴一下汇总贴:论文阅读记录

论文链接:《Robust Transfer Learning with Pretrained Language Models through Adapters》

一、摘要

使用大型预训练的基于 Transformer 的语言模型(如 BERT)进行迁移学习已成为大多数 NLP 任务的主要方法。简单地在下游任务上微调这些大型语言模型或将其与特定于任务的预训练相结合通常并不可靠。特别是,随着随机种子变化或预训练和/或微调迭代次数的变化,性能会有很大差异,并且微调模型容易受到对抗性攻击。我们提出了一种简单而有效的基于适配器的方法来缓解这些问题。具体来说,我们在预训练模型的每一层中插入小的瓶颈层(即适配器),然后固定预训练层并在下游任务数据上训练适配器层,使用(1)特定任务的无监督预训练,然后(2)特定任务的监督训练(例如,分类、序列标记)。我们的实验表明,这样的训练方案可以提高向各种下游任务迁移学习的稳定性和对抗性鲁棒性。

二、结论

我们为大规模预训练语言模型提出了一个简单而有效的迁移学习方案。我们在预训练模型的每个块中插入小瓶颈层(即适配器),然后在特定任务的无监督预训练和有监督训练(即微调)中优化适配器层,同时固定预训练层。大量实验表明,我们的方法在特定任务的预训练和微调中提高了对不同随机种子和不同迭代次数的稳定性,增强了对抗鲁棒性,并提高了迁移学习任务的性能。因此,我们认为所提出的训练方案是一种稳健且参数有效的迁移学习方法。

三、框架

对于每次运行,我们只改变2000到20000之间的预调整迭代次数,间隔为2000,并将微调周期固定为10。我们清楚地观察到,有适配器的BERT的大多数运行都优于没有适配器的BERT。此外,适配器使BERT预处理比标准方法(没有适配器)更加稳定。

预处理的早期、中期和晚期阶段,分别对应于第0次、第10000次和第20000次迭代。第0次迭代表示没有特定任务预处理的原始模型。该模型在第0次迭代中存在欠拟合,在第20000次迭代中存在过拟合。


推荐阅读
author-avatar
god
快出去找工作了,加油!!!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有