谷歌、斯坦福联合发文：我们为什么一定要用大模型？(谷歌模型突破)

作者：继续不插电的名单 | 来源：互联网 | 2023-09-14 21:30

本文主要分享【谷歌模型突破】，技术文章【谷歌、斯坦福联合发文：我们为什么一定要用大模型？】为【夕小瑶】投稿，如果你遇到相关问题，本文相关知识或能到你。谷歌模型突破

本文主要分享【谷歌模型突破】，技术文章【谷歌、斯坦福联合发文：我们为什么一定要用大模型？】为【夕小瑶】投稿，如果你遇到相关问题，本文相关知识或能到你。

谷歌模型突破

文 | Harris

语言模型已经深刻变革了自然语言处理领域的研究和实践。近年来，大模型在多个领域都取得了重要的突破。它们无需在下游任务上微调，通过合适的指令或者提示就可以取得优异的性能，甚至有时让人为之惊叹。例如，GPT-3 [1] 可以写情书、写剧本和解决复杂的数据数学推理问题，PaLM [2] 可以解释笑话。上面的例子只是大模型能力的冰山一角，现在利用大模型能力已经开发了许多应用，在OpenAI的网站 [3] 可以看到许多相关的demo，而这些能力在小模型上却很少体现。

今天介绍的这篇论文中，将那些小模型不具备而大模型具备的能力称为突现能力（Emergent Abilities），意指模型的规模大到一定程度后所突然获得的能力。这是一个量变产生质变的过程。

突现能力的出现难以预测。为什么随着规模的增大，模型会忽然获得某些能力仍旧是一个开放问题，还需要进一步的研究来解答。在本文中，笔者梳理了最近关于理解大模型的一些进展，并给出了一些相关的思考，期待与大家共同探讨。

相关论文：

Emergent Abilities of Large Language Models.http://arxiv.org/abs/2206.07682

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models.https://arxiv.org/abs/2206.04615

大模型的突现能力

何谓大模型？到什么尺寸才算“大”？这并没有一个明确的定义。一般来说，模型参数可能要达到十亿级别才会显示出明显不同于小模型的zero-shot和few-shot的能力。近年来已有多个千亿和万亿级别参数的模型，在一系列的任务上都取得了SOTA的表现。在一些任务中，模型的性能随着规模的增加而可靠地提高，而在另一些任务中，模型在某个规模上表现出性能的突然提升。可以用两个指标去对不同的任务进行分类 [4]：

Linearity: 旨在衡量模型随着规模的增加在任务上的表现在多大程度上得到可靠的提高。

Breakthroughness: 旨在衡量当模型规模超过临界值时可以在多大程度上学习任务。

这两个指标是模型规模和模型性能的函数，具体计算细节可以参考 [4]。下图展示了一些高Linearity和高Breakthroughness任务的例子。

高Linearity的任务大多是基于知识的，也就是说他们主要依赖于记忆训练数据中存在的信息，比如回答一些事实性的问题。更大的模型通常用更多的数据进行训练，也能记住更多的知识，所以模型随着规模的增大在这类任务上显式出了稳定的提升。高Breakthroughness的任务包括较复杂的任务，它们需要用几种不同的能力或执行多个步骤以得出正确的答案，例如数学推理。较小的模型难以获得执行这类任务所需要的所有能力。下图进一步展示了不同的模型在一些高Breakthroughness任务上的表现

在未达到一定的模型规模时，模型在这些任务上的表现是随机的，达到某个特定的规模之后，就有了显着的提升。

是平滑还是突现？

前面我们看到的是模型规模增加到一定程度后突然获得了某些能力，从任务特定的指标来看，这些能力是突现的，但是从另外的角度来看，模型能力的潜在变化更为平滑。本文讨论如下两个角度：（1）使用更为平滑的指标；（2）将复杂的任务分解为多个子任务。

下图（a）展示了一些高Breakthroughness任务的真实目标对数概率的变化曲线，真实目标的对数概率是随着模型规模增大逐渐提高的。

图（b）显式了对于某个多项选择任务，随着模型规模的增大，正确答案的对数概率逐步提升，而错误答案的对数概率在某个特定的规模之前逐步提升，而在此之后趋于平坦。在这个规模之后，正确答案概率和错误答案概率的差距拉大，从而模型得到了显着的性能提升。

此外，对于某个特定任务，假设我们可以用Exact Match和BLEU去评价模型的表现，BLEU相比于Exact Match是更为平滑的指标，使用不同指标所看到的趋势可能有显着的差距。

对于一些任务，模型可能在不同的规模上获得了做这个任务的部分能力。下图是通过一串emoji去猜测电影名字的任务

我们可以看到模型在一些规模开始猜测电影名称，在更大的规模上识别表情符号的语义，在最大的规模上产生正确的答案。

大模型对如何形式化任务很敏感

模型在什么规模上体现出突然的能力提升也取决于如何去形式化任务。例如，在复杂的数学推理任务上，使用标准的prompting将其视为问答任务，模型规模增大性能提升十分有限，而若使用如下图所示的chain-of-thought prompting [5]，将其视为多步推理任务，则会在某个特定的规模看到显着的性能提升。

更有甚者，研究人员发现通过添加一个简单的提示“Let’s think step by step”，就可以大幅提升GPT-3的zero-shot推理能力 [6]，如下图所示

这对于我们的启发是，大模型有时做不好某个任务，可能并不是真的做不好，而是需要合适的方式去激发它的能力。

模型越大一定越强吗？

前面的讨论给我们的直观感觉是模型规模变大性能一定是有所提升的，但是真的是这样吗？实际上，对于有些任务，模型变大之后性能可能反而会有所下降，如下图所示

纽约大学的几位研究人员还组织了一项竞赛，旨在找到那些模型变大后反而表现变差的任务。

比如在问答任务中，如果在提问的同时加上你的信仰，大模型会更容易受到影响。感兴趣的同学可以关注。

总结与思考

在大多数任务上，随着模型规模的增大，模型的表现也越好，但是也会有一些反例。更好地去理解模型此类行为还需要更多的研究。

大模型的能力需要合适的方式去激发。

大模型真的是在做推理吗？ 如我们之前看到的，通过添加提示“Let’s think step by step”，大模型在数学推理任务上就可以进行多步推理并取得令人满意的效果，似乎模型已经具备了人类的推理能力。但是，如下如所示，如果给GPT-3一个没有意义的问题，让它去做多步推理，GPT-3看似在做推理，实则是一些无意义的输出。正所谓“garbage in, garbage out”。相比较而言，人类就可以判断问题是否是合理的，也就是说在给定条件下，当前问题是不是可回答的。“Let’s think step by step”能够发挥作用，笔者觉得根本原因还是GPT-3在训练过程中看过很多类似的数据，它做的只不过是根据前面的token去预测接下来的token罢了，跟人类的思考方式仍旧有本质的区别。当然，如果给合适的提示让GPT-3去判断问题是不是合理的或许它也能在某种程度上做到，但是距离“思考”和“推理”恐怕仍有相当大的距离，这不是单纯增大模型的规模能够解决的。模型或许不需要像人类那样思考，但是亟需更多的研究去探索除增大模型规模之外的路径。

系统1还是系统2？ 人类大脑有两个系统相互配合，系统1（直觉）是快速的、自动化的，而系统2（理性）是缓慢的、可控的。大量实验已证明，人更喜欢使用直觉进行判断和决策，而理性可以对其导致的偏误进行纠正。现在的模型大多基于系统1或系统2进行设计，能否基于双系统去设计未来的模型呢？

大模型时代的查询语言。 之前我们把知识和数据存储在数据库和知识图谱中，我们可以用SQL查询关系型数据库，可用SPARQL去查询知识图谱，那我们用什么查询语言去调用大模型的知识和能力呢？

梅贻琦先生曾说“所谓大学者，非谓有大楼之谓也，有大师之谓也”，笔者在此用个不太恰当的类比结束本篇：所谓大模型者，非谓有参数之谓也，有能之谓也。

后台回复关键词【入群】

加入卖萌屋NLP、CV、搜推广与求职讨论群

[1] Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165 [2] PaLM: Scaling Language Modeling with Pathways. https://arxiv.org/abs/2204.02311 [3] https://gpt3demo.com/ [4] Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models. https://arxiv.org/abs/2206.04615 [5] Chain of Thought Prompting Elicits Reasoning in Large Language Models. https://arxiv.org/abs/2201.11903 [6] Large Language Models are Zero-Shot Reasoners. https://arxiv.org/abs/2205.11916

本文《谷歌、斯坦福联合发文：我们为什么一定要用大模型？》版权归夕小瑶所有，引用谷歌、斯坦福联合发文：我们为什么一定要用大模型？需遵循CC 4.0 BY-SA版权协议。

推荐阅读

uml
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
uml
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
uml
智慧城市建设现状及未来趋势

随着新基建政策的推进及‘十四五’规划的实施，我国正步入以5G、人工智能等先进技术引领的智慧经济新时代。规划强调加速数字化转型，促进数字政府建设，新基建政策亦倡导城市基础设施的全面数字化。本文探讨了智慧城市的发展背景、全球及国内进展、市场规模、架构设计，以及百度、阿里、腾讯、华为等领军企业在该领域的布局策略。 ... [详细]

蜡笔小新 2024-12-16 16:43:21
uml
黑客如何利用AI在暗网重建你的数字身份

随着技术的发展，黑客开始利用AI技术在暗网中创建用户的‘数字孪生’，这一现象引起了安全专家的高度关注。 ... [详细]

蜡笔小新 2024-12-12 17:45:26
uml
英特尔推出第三代至强可扩展处理器及傲腾持久内存，AI性能显著提升

英特尔在数据创新峰会上发布了第三代至强可扩展处理器和第二代傲腾持久内存，全面增强AI能力和系统性能。 ... [详细]

蜡笔小新 2024-11-17 13:07:14
uml
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
text
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
uri
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
uri
精选Python视频教程：来自国际顶尖讲师的全面指南（附中文字幕）

本文将介绍由密歇根大学Charles Severance教授主讲的顶级Python入门系列课程，该课程广受好评，被誉为Python学习的最佳选择。通过生动有趣的教学方式，帮助初学者轻松掌握编程基础。 ... [详细]

蜡笔小新 2024-12-27 15:14:33
uri
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
shell
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
instance
LambdaMART算法详解

本文详细介绍了LambdaMART算法的背景、原理及其在信息检索中的应用。首先回顾了LambdaMART的发展历程，包括其前身RankNet和LambdaRank，然后深入探讨了LambdaMART如何结合梯度提升决策树（GBDT）和LambdaRank来优化排序问题。 ... [详细]

蜡笔小新 2024-12-18 12:30:35
instance
美团推荐系统：机器学习优化重排序模型

在互联网信息爆炸的时代，当用户需求模糊或难以通过精确查询表达时，推荐系统成为解决信息过载的有效手段。美团作为国内领先的O2O平台，通过深入分析用户行为，运用先进的机器学习技术优化推荐算法，提升用户体验。 ... [详细]

蜡笔小新 2024-12-17 17:56:15
copy
CART决策树与随机森林详解

本文深入探讨了CART（分类与回归树）的基本原理及其在随机森林中的应用。重点介绍了CART的分裂准则、防止过拟合的方法、处理样本不平衡的策略以及其在回归问题中的应用。此外，还详细解释了随机森林的构建过程、样本均衡处理、OOB估计及特征重要性的计算。 ... [详细]

蜡笔小新 2024-12-16 16:54:15
copy
厘清机器学习与数据分析的界限

本文旨在探讨机器学习与数据分析之间的差异，不仅在于它们处理的数据类型，还包括技术背景、业务应用场景以及参与者的不同。通过深入分析，希望能为读者提供清晰的理解。 ... [详细]

蜡笔小新 2024-12-12 15:15:36

继续不插电的名单

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章