当前位置: 开发笔记 > 编程语言 > 正文

终于不瞎编了！AI学会了“谷歌一下”，回答问题正确率达90%|DeepMind

作者：mobiledu2502917953 | 来源：互联网 | 2023-08-19 12:33

明敏发自凹非寺量子位|公众号QbitAI语言模型总是给出“驴唇不对马嘴”的答案，已经成为它最饱受诟病的问题之一。现在，DeepMind想到了一个解决办法

明敏发自凹非寺
量子位 | 公众号 QbitAI

语言模型总是给出“驴唇不对马嘴”的答案&＃xff0c;已经成为它最饱受诟病的问题之一。

现在&＃xff0c;DeepMind想到了一个解决办法——

让模型像人类一样&＃xff0c;学会“谷歌一下”&＃xff0c;回答问题同时还能给出论据。

这个模型名叫GopherCite&＃xff0c;当你问它&＃xff1a;

GopherCite是如何找到论据来源的&＃xff1f;

它会回答&＃xff1a;

通过谷歌搜索检索相关文档。

同时还给出了答案的依据&＃xff0c;援引自DeepMind发布这项研究的页面。

而且遇到实在不懂的问题&＃xff0c;它还会说“I don’t know.”&＃xff0c;不会强行给一个错误答案。

训练结果显示&＃xff0c;该模型在自然问题数据集、ELI5数据集上的正确率分别可以达到90%、80%&＃xff0c;接近人类水平。

用强化学习训练AI查谷歌

首先我们来看一下GopherCite的效果如何。

当被问道&＃xff1a;

在Scooby Doo中&＃xff0c;Scooby是什么动物&＃xff1f;

GopherCite回答道&＃xff1a;

一只大丹犬。
摘自维基百科Scooby-Doo。这是周六早上播出的系列青少年动画片&＃xff0c;主角包括弗雷德·琼斯等&＃xff0c;以及一只名叫Scooby-Doo、会说话的大丹犬。

不难看出&＃xff0c;在学会找论据后&＃xff0c;AI给出的回答靠谱多了。

事实上&＃xff0c;GopherCite的前辈——超大语言模型Gopher&＃xff0c;此前回答问题时的表现就要差劲很多。

Gopher是DeepMind在去年年底发布的NLP模型&＃xff0c;包含2800亿参数。

它基于Transformer架构&＃xff0c;在10.5TB大小的MassiveText语料库上进行训练。

在这里&＃xff0c;DeepMind举了一个例子来说明。

让Gopher和GopherCite回答同一个问题&＃xff1a;

普莱西德湖一共举办过几次冬奥会&＃xff1f;

Gopher回答&＃xff08;是错的&＃xff09;&＃xff1a;

普莱西德湖在1932年、1936年、1980年举办过冬奥会。

但GopherCite就答对了&＃xff1a;

两次。

并给出了严谨的理由&＃xff1a;

援引自美国主办奥运会城市史。1932年、1980年在普莱西德湖举办过冬季奥运会&＃xff1b;1936年、1984年在洛杉矶举办过夏季奥运会。

那么GopherCite的具体工作原理是怎样的呢&＃xff1f;

在Gopher的基础上&＃xff0c;研究人员开发了一种奖励机制&＃xff0c;也就是用上强化学习。

在收到问题后&＃xff0c;模型会访问谷歌搜索的API来找到相关的网页&＃xff0c;获取top-K结果。

&＃xff08;top-K操作&＃xff0c;即从分数集合中找到k个最大或最小元素&＃xff0c;是一个重要的机器学习模型组件&＃xff0c;被广泛用于信息检索和数据挖掘中。&＃xff09;

然后它会根据问题来生成一些答案&＃xff0c;答案数量N会大于K。

这些答案同时会带有自己的证据&＃xff0c;即从网页上搜索到的包含答案的文段。

接下来&＃xff0c;系统会对这些答案进行打分&＃xff0c;最终输出得分最高的答案。

在推理过程中&＃xff0c;模型采样会按照循环在文档上不断迭代&＃xff0c;每个循环都会从单个文档中尽可能多地显示上下文内容&＃xff0c;然后对文本重新排序并返回给上一步。

此外&＃xff0c;这个模型还会计算最终生成答案的质量&＃xff0c;如果生成答案太差&＃xff0c;它就会选择不回答。

结果显示&＃xff0c;在自然问题数据集上&＃xff0c;GopherCite回答70%的问题时&＃xff0c;正确率达到90%。

在ELI5Filtered数据集上回答70%的问题时&＃xff0c;正确率为80%左右。

DeepMind表示这种训练模式和LaMDA有些类似。

LaMDA是谷歌在去年I/O大会上发布的一个对话模型&＃xff0c;它能够在“听懂”人类指令的基础上&＃xff0c;对答如流并保证逻辑、事实正确。

不同的是&＃xff0c;LaMDA有时会直接给人分享问题的相关链接&＃xff0c;而GopherCite可以直接摘出相关论据文段。

另外&＃xff0c;OpenAI最近也开发了一个网页版GPT &＃xff08;WebGPT&＃xff09;&＃xff0c;同样也是用类似的方法来校正GPT-3。

DeepMind表示&＃xff0c;WebGPT是通过多次访问网页来组织答案&＃xff0c;GopherCite则是侧重于读取长文段。

还是会有失误

虽然懂得援引资料了&＃xff0c;但是GopherCite有时还是会生搬硬套。

比如当你问它“喝了红牛会怎么样&＃xff1f;”&＃xff0c;它的回答是“翅膀”。

这是源于红牛的广告语&＃xff1a;“它会给你翅膀”。

显然让它理解比喻还是有点困难……

也有网友吐槽说&＃xff0c;可能人类自己去谷歌搜索会更快&＃xff08;&＃xff09;。

你觉得呢&＃xff1f;

参考资料&＃xff1a;
https://deepmind.com/research/publications/2022/GopherCite-Teaching-Language-Models-To-Support-Answers-With-Verified-Quotes

推荐阅读

format
WordPress Duplicator 0.4.4 版本存在跨站脚本攻击漏洞分析

在对WordPress Duplicator插件0.4.4版本的安全评估中，发现其存在跨站脚本（XSS）攻击漏洞。此漏洞可能被利用进行恶意操作，建议用户及时更新至最新版本以确保系统安全。测试方法仅限于安全研究和教学目的，使用时需自行承担风险。漏洞编号：HTB23162。 ... [详细]

蜡笔小新 2024-11-10 13:16:43
format
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
format
feat: Enhances Jest Testing Capabilities with Snapshot Support

feat: Enhances Jest Testing Capabilities with Snapshot Support ... [详细]

蜡笔小新 2024-11-11 10:24:23
format
OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战

OpenAI首席执行官Sam Altman展望：人工智能的未来发展方向与挑战 ... [详细]

蜡笔小新 2024-11-11 09:47:50
version
如何在Nginx服务器上轻松配置CertBot以实现SSL证书自动化管理

为了确保iOS应用能够安全地访问网站数据，本文介绍了如何在Nginx服务器上轻松配置CertBot以实现SSL证书的自动化管理。通过这一过程，可以确保应用始终使用HTTPS协议，从而提升数据传输的安全性和可靠性。文章详细阐述了配置步骤和常见问题的解决方法，帮助读者快速上手并成功部署SSL证书。 ... [详细]

蜡笔小新 2024-11-10 08:42:08
client
Java Socket 关键参数详解与优化建议

Java Socket 的 API 虽然被广泛使用，但其关键参数的用途却鲜为人知。本文详细解析了 Java Socket 中的重要参数，如 backlog 参数，它用于控制服务器等待连接请求的队列长度。此外，还探讨了其他参数如 SO_TIMEOUT、SO_REUSEADDR 等的配置方法及其对性能的影响，并提供了优化建议，帮助开发者提升网络通信的稳定性和效率。 ... [详细]

蜡笔小新 2024-11-09 21:38:05
client
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
version
ElasticStack 日志监控：Logstash 编码插件详解与生产环境应用实例分析

在ElasticStack日志监控系统中，Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包，每个插件可以单独进行更新和维护，无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性，还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法，并通过实际生产环境中的应用案例，展示其在日志处理和监控中的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:27:28
version
C#编程指南：利用ASP.NET和JavaScript实现带有Fingerprint功能的Web应用登录系统

本指南介绍了如何在ASP.NET Web应用程序中利用C#和JavaScript实现基于指纹识别的登录系统。通过集成指纹识别技术，用户无需输入传统的登录ID即可完成身份验证，从而提升用户体验和安全性。我们将详细探讨如何配置和部署这一功能，确保系统的稳定性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 18:14:37
instance
使用 ListView 浏览安卓系统中的回收站文件

使用 ListView 浏览安卓系统中的回收站文件 ... [详细]

蜡笔小新 2024-11-09 16:34:55
version
优化后的标题：深入探讨网关安全：将微服务升级为OAuth2资源服务器的最佳实践

本文深入探讨了如何将微服务升级为OAuth2资源服务器，以订单服务为例，详细介绍了在POM文件中添加 `spring-cloud-starter-oauth2` 依赖，并配置Spring Security以实现对微服务的保护。通过这一过程，不仅增强了系统的安全性，还提高了资源访问的可控性和灵活性。文章还讨论了最佳实践，包括如何配置OAuth2客户端和资源服务器，以及如何处理常见的安全问题和错误。 ... [详细]

蜡笔小新 2024-11-09 16:13:27
node.js
Ave V8 JavaScript 引擎：持续优化与创新

V8不仅是一款著名的八缸发动机，广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来，作为Chromium项目的一部分，V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制，显著提升了JavaScript的执行效率，为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色，成为众多开发者和企业的首选。 ... [详细]

蜡笔小新 2024-11-09 15:56:40
instance
深入解析JDK 8 HashMap源代码：put方法详解及capacity、size、loadFactor和红黑树转换阈值的设定原理

本文深入解析了JDK 8中HashMap的源代码，重点探讨了put方法的工作机制及其内部参数的设定原理。HashMap允许键和值为null，但键为null的情况只能出现一次，因为null键在内部通过索引0进行存储。文章详细分析了capacity（容量）、size（大小）、loadFactor（加载因子）以及红黑树转换阈值的设定原则，帮助读者更好地理解HashMap的高效实现和性能优化策略。 ... [详细]

蜡笔小新 2024-11-10 14:10:53
jsp
如何在Conda环境中高效配置并安装PyTorch与TensorFlow GPU版

在Conda环境中高效配置并安装PyTorch和TensorFlow GPU版的方法如下：首先，创建一个新的Conda环境以避免与基础环境发生冲突，例如使用 `conda create -n pytorch_gpu python=3.7` 命令。接着，激活该环境，确保所有依赖项都正确安装。此外，建议在安装过程中指定CUDA版本，以确保与GPU兼容性。通过这些步骤，可以确保PyTorch和TensorFlow GPU版的顺利安装和运行。 ... [详细]

蜡笔小新 2024-11-10 10:49:24
version
Maven Web项目创建时JSP文件常见错误及解决方案

Maven Web项目创建时JSP文件常见错误及解决方案 ... [详细]

蜡笔小新 2024-11-10 07:05:14

mobiledu2502917953

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章

终于不瞎编了！AI学会了“谷歌一下”，回答问题正确率达90%|DeepMind

明敏 发自 凹非寺量子位 | 公众号 QbitAI

用强化学习训练AI查谷歌

还是会有失误

明敏发自凹非寺
量子位 | 公众号 QbitAI