贴一下汇总贴:论文阅读记录
论文链接:《What Context Features Can Transformer Language Models Use?》
一、摘要
基于 Transformer 的语言模型受益于对数百到数千个先前标记的上下文的调节。这些上下文的哪些方面有助于准确的模型预测?我们描述了一系列实验,这些实验通过在英语维基百科上训练的转换器语言模型中选择性地去除词汇和结构信息来测量可用信息。在中长距离上下文中,我们发现一些极具破坏性的上下文操作——包括在句子中打乱词序和删除除名词以外的所有单词——删除了不到 15% 的可用信息。我们的结果表明,对于当前 Transformer 语言模型的低困惑度,长上下文而非其详细的句法和命题内容很重要。
二、结论
我们已经研究了变形模型在英语语言建模的长期语境中使用结构和词汇信息的程度。实验表明,这些信息主要包含在实义词和局部排序统计中:从上下文中删除其他类型信息的烧蚀对模型的预测精度影响很小。相比之下,只保留关于文档标识或命名实体的信息会导致预测准确性的显著下降:仅存在主题或命名实体信息不能解释长上下文的有效性。
获得这些结果的关键是对消融可用信息的衡量,这些信息基于在消融环境下训练和测试的模型的准确性。过去关于LMs中上下文的研究主要是测量评价时间烧蚀的影响。有时这两个上下文敏感性的概念是一致的(例如,三字组合变换),有时它们不一致(例如,删除词汇信息)。我们的结果也为将来的建模工作提供了一个起点。它们激发更有效、压缩的上下文表示,更好地保存当前模型可用的信息。他们通过开发新的上下文表示来激发更精确的模型,使当前不可用的信息更加突出。
我们的实验仍有几个问题没有回答。烧蚀会影响模型生成的文本质量吗?(特别是,由长上下文添加的可用信息是否提高了语法、语义的可预测性,或者仅仅是文档级的词频统计?)更重要的是,对可用信息的观察是否反映了变形器的局限性或英语信息理论的基本属性?我们的结果表明,至少有一些效应是模型特有的:删除虚词不能增加信息,但可以提高模型的准确性。这个问题的完整答案需要更详细的探索,包括更好地理解人类在类似环境下的预测。