【论文泛读129】Transformer语言模型可以使用哪些上下文特征？

作者：老邮迢 | 来源：互联网 | 2023-10-13 10:23

贴一下汇总贴：论文阅读记录论文链接：《WhatContextFeaturesCanTransformerLanguageModelsUse?》一、摘

贴一下汇总贴&＃xff1a;论文阅读记录

论文链接&＃xff1a;《What Context Features Can Transformer Language Models Use?》

一、摘要

基于 Transformer 的语言模型受益于对数百到数千个先前标记的上下文的调节。这些上下文的哪些方面有助于准确的模型预测&＃xff1f;我们描述了一系列实验&＃xff0c;这些实验通过在英语维基百科上训练的转换器语言模型中选择性地去除词汇和结构信息来测量可用信息。在中长距离上下文中&＃xff0c;我们发现一些极具破坏性的上下文操作——包括在句子中打乱词序和删除除名词以外的所有单词——删除了不到 15% 的可用信息。我们的结果表明&＃xff0c;对于当前 Transformer 语言模型的低困惑度&＃xff0c;长上下文而非其详细的句法和命题内容很重要。

二、结论

我们已经研究了变形模型在英语语言建模的长期语境中使用结构和词汇信息的程度。实验表明&＃xff0c;这些信息主要包含在实义词和局部排序统计中:从上下文中删除其他类型信息的烧蚀对模型的预测精度影响很小。相比之下&＃xff0c;只保留关于文档标识或命名实体的信息会导致预测准确性的显著下降:仅存在主题或命名实体信息不能解释长上下文的有效性。

获得这些结果的关键是对消融可用信息的衡量&＃xff0c;这些信息基于在消融环境下训练和测试的模型的准确性。过去关于LMs中上下文的研究主要是测量评价时间烧蚀的影响。有时这两个上下文敏感性的概念是一致的(例如&＃xff0c;三字组合变换)&＃xff0c;有时它们不一致(例如&＃xff0c;删除词汇信息)。我们的结果也为将来的建模工作提供了一个起点。它们激发更有效、压缩的上下文表示&＃xff0c;更好地保存当前模型可用的信息。他们通过开发新的上下文表示来激发更精确的模型&＃xff0c;使当前不可用的信息更加突出。

我们的实验仍有几个问题没有回答。烧蚀会影响模型生成的文本质量吗?(特别是&＃xff0c;由长上下文添加的可用信息是否提高了语法、语义的可预测性&＃xff0c;或者仅仅是文档级的词频统计?)更重要的是&＃xff0c;对可用信息的观察是否反映了变形器的局限性或英语信息理论的基本属性?我们的结果表明&＃xff0c;至少有一些效应是模型特有的:删除虚词不能增加信息&＃xff0c;但可以提高模型的准确性。这个问题的完整答案需要更详细的探索&＃xff0c;包括更好地理解人类在类似环境下的预测。

推荐阅读

string
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
get
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
get
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
string
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
spring
网易严选Java开发面试：MySQL索引深度解析

本文详细记录了网易严选Java开发岗位的面试经验，特别针对MySQL索引相关的技术问题进行了深入探讨。通过本文，读者可以了解面试官常问的索引问题及其背后的原理。 ... [详细]

蜡笔小新 2024-12-24 19:50:16
java
自己用过的一些比较有用的css3新属性【HTML】

web前端|html教程自己用过的一些比较用的css3新属性web前端-html教程css3刚推出不久，虽然大多数的css3属性在很多流行的浏览器中不支持，但我个人觉得还是要尽量开 ... [详细]

蜡笔小新 2024-12-24 19:26:54
java
Unity编辑器插件：NGUI资源引用检测工具

本文介绍了一款基于NGUI的资源引用检测工具，该工具能够帮助开发者快速查找和管理项目中的资源引用。其功能涵盖Atlas/Sprite、字库、UITexture及组件的引用检测，并提供了替换和修复功能。文末提供源码下载链接。 ... [详细]

蜡笔小新 2024-12-24 17:17:06
get
Python处理Word文档的高效技巧

本文详细介绍了如何使用Python处理Word文档，涵盖从基础操作到高级功能的各种技巧。我们将探讨如何生成文档、定义样式、提取表格数据以及处理超链接和图片等内容。 ... [详细]

蜡笔小新 2024-12-23 10:40:32
string
深入理解 .NET 中的中间件

中间件是插入到应用程序请求处理管道中的组件，用于处理传入的HTTP请求和响应。它在ASP.NET Core中扮演着至关重要的角色，能够灵活地扩展和自定义应用程序的行为。 ... [详细]

蜡笔小新 2024-12-22 19:29:43
string
Mathematica 12.3.1 中英文版正式发布，附新功能介绍

历经三十年的开发，Mathematica 已成为技术计算领域的标杆，为全球的技术创新者、教育工作者、学生及其他用户提供了一个领先的计算平台。最新版本 Mathematica 12.3.1 增加了多项核心语言、数学计算、可视化和图形处理的新功能。 ... [详细]

蜡笔小新 2024-12-22 09:34:59
get
C# XNA 中实现自定义 3x3 矩阵类：MMatrix33

本文介绍了如何在 C# 和 XNA 框架中实现一个自定义的 3x3 矩阵类（MMatrix33），旨在深入理解矩阵运算及其应用场景。该类参考了 AS3 Starling 和其他相关资源，以确保算法的准确性和高效性。 ... [详细]

蜡笔小新 2024-12-21 17:27:57
replace
ChatGPT：内容创造者还是非法搬运工？

探讨ChatGPT在法律和版权方面的潜在风险及影响，分析其作为内容创造工具的合法性和合规性。 ... [详细]

蜡笔小新 2024-12-21 10:13:36
io
一个登陆界面

预览截图html部分123456789101112用户登入1314邮箱名称邮箱为空15密码密码为空16登 ... [详细]

蜡笔小新 2024-12-20 09:57:07
java
优雅实现 jQuery 折叠展开下拉菜单

本文介绍了一种使用 jQuery 实现的优雅折叠和展开效果的下拉菜单，通过简单的 HTML 结构和 CSS 样式，结合 jQuery 脚本，可以轻松创建出美观且功能强大的下拉菜单。 ... [详细]

蜡笔小新 2024-12-18 17:45:34
string
Vue 3.0 翻牌数字组件使用指南

本文详细介绍了如何在 Vue 3.0 中使用翻牌数字组件，包括其基本设置和高级配置，旨在帮助开发者快速掌握并应用这一动态视觉效果。 ... [详细]

蜡笔小新 2024-12-17 11:54:45

老邮迢

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章