热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【论文泛读129】Transformer语言模型可以使用哪些上下文特征?

贴一下汇总贴:论文阅读记录论文链接:《WhatContextFeaturesCanTransformerLanguageModelsUse?》一、摘

贴一下汇总贴:论文阅读记录

论文链接:《What Context Features Can Transformer Language Models Use?》

一、摘要

基于 Transformer 的语言模型受益于对数百到数千个先前标记的上下文的调节。这些上下文的哪些方面有助于准确的模型预测?我们描述了一系列实验,这些实验通过在英语维基百科上训练的转换器语言模型中选择性地去除词汇和结构信息来测量可用信息。在中长距离上下文中,我们发现一些极具破坏性的上下文操作——包括在句子中打乱词序和删除除名词以外的所有单词——删除了不到 15% 的可用信息。我们的结果表明,对于当前 Transformer 语言模型的低困惑度,长上下文而非其详细的句法和命题内容很重要。

二、结论

我们已经研究了变形模型在英语语言建模的长期语境中使用结构和词汇信息的程度。实验表明,这些信息主要包含在实义词和局部排序统计中:从上下文中删除其他类型信息的烧蚀对模型的预测精度影响很小。相比之下,只保留关于文档标识或命名实体的信息会导致预测准确性的显著下降:仅存在主题或命名实体信息不能解释长上下文的有效性。

获得这些结果的关键是对消融可用信息的衡量,这些信息基于在消融环境下训练和测试的模型的准确性。过去关于LMs中上下文的研究主要是测量评价时间烧蚀的影响。有时这两个上下文敏感性的概念是一致的(例如,三字组合变换),有时它们不一致(例如,删除词汇信息)。我们的结果也为将来的建模工作提供了一个起点。它们激发更有效、压缩的上下文表示,更好地保存当前模型可用的信息。他们通过开发新的上下文表示来激发更精确的模型,使当前不可用的信息更加突出。

我们的实验仍有几个问题没有回答。烧蚀会影响模型生成的文本质量吗?(特别是,由长上下文添加的可用信息是否提高了语法、语义的可预测性,或者仅仅是文档级的词频统计?)更重要的是,对可用信息的观察是否反映了变形器的局限性或英语信息理论的基本属性?我们的结果表明,至少有一些效应是模型特有的:删除虚词不能增加信息,但可以提高模型的准确性。这个问题的完整答案需要更详细的探索,包括更好地理解人类在类似环境下的预测。


推荐阅读
  • 优化ListView性能
    本文深入探讨了如何通过多种技术手段优化ListView的性能,包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]
  • 导航栏样式练习:项目实例解析
    本文详细介绍了如何创建一个具有动态效果的导航栏,包括HTML、CSS和JavaScript代码的实现,并附有详细的说明和效果图。 ... [详细]
  • Python自动化处理:从Word文档提取内容并生成带水印的PDF
    本文介绍如何利用Python实现从特定网站下载Word文档,去除水印并添加自定义水印,最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]
  • 网易严选Java开发面试:MySQL索引深度解析
    本文详细记录了网易严选Java开发岗位的面试经验,特别针对MySQL索引相关的技术问题进行了深入探讨。通过本文,读者可以了解面试官常问的索引问题及其背后的原理。 ... [详细]
  • Python处理Word文档的高效技巧
    本文详细介绍了如何使用Python处理Word文档,涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]
  • 深入理解 .NET 中的中间件
    中间件是插入到应用程序请求处理管道中的组件,用于处理传入的HTTP请求和响应。它在ASP.NET Core中扮演着至关重要的角色,能够灵活地扩展和自定义应用程序的行为。 ... [详细]
  • 历经三十年的开发,Mathematica 已成为技术计算领域的标杆,为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]
  • 本文介绍了如何在 C# 和 XNA 框架中实现一个自定义的 3x3 矩阵类(MMatrix33),旨在深入理解矩阵运算及其应用场景。该类参考了 AS3 Starling 和其他相关资源,以确保算法的准确性和高效性。 ... [详细]
  • 探讨ChatGPT在法律和版权方面的潜在风险及影响,分析其作为内容创造工具的合法性和合规性。 ... [详细]
  • 本文深入探讨了MySQL中常见的面试问题,包括事务隔离级别、存储引擎选择、索引结构及优化等关键知识点。通过详细解析,帮助读者在面对BAT等大厂面试时更加从容。 ... [详细]
  • 一个登陆界面
    预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]
  • Vue 3.0 翻牌数字组件使用指南
    本文详细介绍了如何在 Vue 3.0 中使用翻牌数字组件,包括其基本设置和高级配置,旨在帮助开发者快速掌握并应用这一动态视觉效果。 ... [详细]
  • iOS绘制就是采集点,贝塞尔曲线得到形状,绘图上下文去渲染出来AsanaDrawsana图形库,设计的挺好他可以画多种图形, ... [详细]
  • 开发笔记:精通 CSS 第 10 章 变换过渡与动画 学习笔记
    开发笔记:精通 CSS 第 10 章 变换过渡与动画 学习笔记 ... [详细]
  • HTML5实现逼真树叶飘落动画详解
    本文详细介绍了如何利用HTML5技术创建一个逼真的树叶飘落动画,包括HTML、CSS和JavaScript的代码实现及优化技巧。 ... [详细]
author-avatar
老邮迢
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有