贴一下汇总贴:论文阅读记录
论文链接:《Robust Transfer Learning with Pretrained Language Models through Adapters》
一、摘要
使用大型预训练的基于 Transformer 的语言模型(如 BERT)进行迁移学习已成为大多数 NLP 任务的主要方法。简单地在下游任务上微调这些大型语言模型或将其与特定于任务的预训练相结合通常并不可靠。特别是,随着随机种子变化或预训练和/或微调迭代次数的变化,性能会有很大差异,并且微调模型容易受到对抗性攻击。我们提出了一种简单而有效的基于适配器的方法来缓解这些问题。具体来说,我们在预训练模型的每一层中插入小的瓶颈层(即适配器),然后固定预训练层并在下游任务数据上训练适配器层,使用(1)特定任务的无监督预训练,然后(2)特定任务的监督训练(例如,分类、序列标记)。我们的实验表明,这样的训练方案可以提高向各种下游任务迁移学习的稳定性和对抗性鲁棒性。
二、结论
我们为大规模预训练语言模型提出了一个简单而有效的迁移学习方案。我们在预训练模型的每个块中插入小瓶颈层(即适配器),然后在特定任务的无监督预训练和有监督训练(即微调)中优化适配器层,同时固定预训练层。大量实验表明,我们的方法在特定任务的预训练和微调中提高了对不同随机种子和不同迭代次数的稳定性,增强了对抗鲁棒性,并提高了迁移学习任务的性能。因此,我们认为所提出的训练方案是一种稳健且参数有效的迁移学习方法。
三、框架
对于每次运行,我们只改变2000到20000之间的预调整迭代次数,间隔为2000,并将微调周期固定为10。我们清楚地观察到,有适配器的BERT的大多数运行都优于没有适配器的BERT。此外,适配器使BERT预处理比标准方法(没有适配器)更加稳定。
预处理的早期、中期和晚期阶段,分别对应于第0次、第10000次和第20000次迭代。第0次迭代表示没有特定任务预处理的原始模型。该模型在第0次迭代中存在欠拟合,在第20000次迭代中存在过拟合。