20亿参数+30亿张图像，刷新ImageNet最高分！谷歌大脑华人研究员领衔发布最强Transformer...

作者：手机用户2502907603 | 来源：互联网 | 2023-08-12 19:43

来源：新智元本文约1300字，建议阅读5分钟视觉Transformer进阶。近日，谷歌大脑团队公布了VisionTransformer&#

来源&＃xff1a;新智元本文约1300字&＃xff0c;建议阅读5分钟视觉Transformer进阶。

近日&＃xff0c;谷歌大脑团队公布了Vision Transformer&＃xff08;ViT&＃xff09;进阶版ViT-G/14&＃xff0c;参数高达20亿的CV模型&＃xff0c;经过30亿张图片的训练&＃xff0c;刷新了ImageNet上最高准确率记录——90.45%&＃xff0c;此前的ViT取得的最高准确率记录是 88.36%&＃xff0c;不仅如此&＃xff0c;ViT-G/14还超过之前谷歌提出的Meta Pseduo Labels模型。

Vision Transformer模型的缩放规律

在多项基准测试中&＃xff0c;ImageNet, ImageNet-v2和VTAB-1k&＃xff0c;ViT-G/14的表现都刷新了记录。

例如&＃xff0c;在几张照片的识别挑战中&＃xff0c;准确率提高了五个百分点以上。研究人员随后训练了多个更微型的模型版本&＃xff0c;以寻找架构的缩放规律&＃xff08;scaling law&＃xff09;&＃xff0c;结果观察到性能遵循幂律函数&＃xff08;power-law function&＃xff09;&＃xff0c;类似于用于NLP的Transformer模型。

2017年由谷歌首次引入的 Transformer 架构迅速成为最受欢迎的NLP深度学习模型设计&＃xff0c;其中 OpenAI的GPT-3是最著名的。OpenAI 去年发布的一项研究描述了这些模型的缩放规则&＃xff08;Scaling rules&＃xff09;。

OpenAI 通过训练几个不同规模的可比模型&＃xff0c;改变训练数据的数量和处理能力&＃xff0c;开发了一个用于评估模型准确性的幂律函数。此外&＃xff0c;OpenAI 发现更大的模型不仅性能更好&＃xff0c;而且计算效率也更高。

与 NLP 模型不同&＃xff0c;大多数SOTA的 CV 深度学习模型&＃xff0c;采用的是卷积神经网络架构(CNN)。2012年&＃xff0c; 一个CNN模型赢得了ImageNet竞赛&＃xff0c;CNN因此声名鹊起。

随着Transformer最近在 NLP 领域的成功&＃xff0c;研究人员已经开始关注它在视觉问题上的表现; 例如&＃xff0c;OpenAI 已经构建了一个基于 GPT-3的图像生成系统。

谷歌在这个领域一直非常活跃&＃xff0c;在2020年年底使用他们专有的 JFT-300M 数据集训练了一个600m 参数的 ViT 模型。

△ 去年10月&＃xff0c;谷歌大脑团队发布了Vision Transformer&＃xff08;ViT&＃xff09;

而新的ViT-G/14模型使用 JFT-3B 预先训练&＃xff0c;JFT-3B是升级版数据集&＃xff0c;包含大约30亿张图片。

研究团队改进了 ViT 架构&＃xff0c;增加了内存使用&＃xff0c;使模型能够适应单个 TPUv3核心。研究人员在预先训练的模型上使用少量和微调的迁移学习来评估 ViT-G/14和其他较小模型的性能。这些发现被用来创建缩放规则&＃xff0c;类似于 NLP 规则:

根据幂律函数&＃xff0c;缩放更多的计算、模型和数据可以提高准确性&＃xff1b;

在较小的模型中&＃xff0c;准确性可能是一个障碍&＃xff1b;

大型数据集有助于大型模型。

目前&＃xff0c;ViT-G/14得分在 ImageNet 排行榜上排名第一。下面的八个得分最高的模型同样是由谷歌的研究人员创建的&＃xff0c;而第十个模型来自Facebook。

作者团队

本次论文团队成员是此前发布ViT模型的4名成员&＃xff0c;其中&＃xff0c;第一作者是Xiaohua Zhai (翟晓华)。

https://sites.google.com/site/xzhai89/home

翟晓华目前是谷歌大脑研究员。研究领域为深度学习和计算机视觉。兴趣范围包括表征学习、迁移学习、自监督学习、生成模型、跨模态感知。

根据他的个人网站提供的信息&＃xff0c;2009年&＃xff0c;翟晓华本科毕业于南京大学&＃xff0c;2014年取得北京大学计算机科学博士学位。

另外&＃xff0c;论文作者Alexander Kolesnikov&＃xff0c;同为谷歌大脑研究员&＃xff0c;研究领域包括人工智能、机器学习、深度学习和计算机视觉。

毕业于奥地利Institute of Science and Technology Austria (IST Austria)&＃xff0c;博士论文为Weakly-Supervised Segmentation and Unsupervised Modeling of Natural Images&＃xff08;自然图像的弱监督分割和无监督建模&＃xff09;。

另一名作者Neil Houlsby&＃xff08;下图&＃xff09;&＃xff0c;研究领域为机器学习、人工智能、计算机视觉和自然语言处理。

第四名作者Lucas Beyer&＃xff0c;是一名自学成才的黑客、研究科学家&＃xff0c;致力于帮助机器人了解世界、帮助人类了解深度学习&＃xff08;本作者暂未找到图片&＃xff09;。

参考资料&＃xff1a;

https://arxiv.org/pdf/2106.04560.pdf

https://www.marktechpost.com/2021/06/28/google-trains-an-ai-vision-model-with-two-billion-parameter/

编辑&＃xff1a;文婧

推荐阅读

facebook
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
js
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
go
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
go
aw多模态融合,多模态话语分析

本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]

蜡笔小新 2023-10-17 19:16:14
go
3年半巨亏242亿！商汤高估了深度学习，下错了棋？

转自：新智元三年半研发开支近70亿，累计亏损242亿。AI这门生意好像越来越不好做了。近日，商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]

蜡笔小新 2023-10-17 16:41:52
bit
都说Python处理速度慢，为何月活7亿的 Instagram依然在使用Python？

点击“Python编程与实战”，选择“置顶公众号”第一时间获取Python技术干货！来自|简书作者|我爱学python链接|https:www.jian ... [详细]

蜡笔小新 2023-10-16 19:27:08
web
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
python
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
byte
CodeBERT理解

1.动机大型的预训练模型，比如ELMo、GPT、Bert等提高了NLP任务的最新技术。这些预训练模型在NLP的成功驱动了多模态预训练模型，比如ViBE ... [详细]

蜡笔小新 2023-10-15 13:33:18
go
HBase干货 | 如何优雅的通过Key与Value分离降低写放大难题？

本文将为大家介绍为什么这样能够有效的降低写放大，然后聊聊几个keyvalue分离系统的结构，包括两篇影响比较广泛的学术论文，以及HBase在keyvalue ... [详细]

蜡笔小新 2023-10-14 15:12:27
bit
拯救万千学子于水深火热之中！Facebook开源无梯度优化工具

乾明发自凹非寺量子位出品|公众号QbitAI机器学习啥最苦？十有八九找参数！不少研究生，都被卡在这个环节上，久久不能毕业。现 ... [详细]

蜡笔小新 2023-10-13 15:46:29
js
知识图谱——机器大脑中的知识库

本文介绍了知识图谱在机器大脑中的应用，以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例，说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案，如搜索关键词"Marie Curie"，会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革，不仅美国的微软必应，中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]

蜡笔小新 2023-12-14 10:06:19
go
MongoDB用户验证auth的权限设置及角色说明

本文介绍了MongoDB用户验证auth的权限设置，包括readAnyDatabase、readWriteAnyDatabase、userAdminAnyDatabase、dbAdminAnyDatabase、cluster相关的权限以及root权限等角色的说明和使用方法。 ... [详细]

蜡笔小新 2023-12-12 13:51:15
web
navicat生成er图_实践案例丨ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要：目前复杂问题包括两种：含约束的问题和多跳关系问题。本文对ACL2020KBQA基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读 ... [详细]

蜡笔小新 2023-10-16 15:31:07
hash
fasttext整体介绍

Word2vec,Fasttext,Glove,Elmo,Bert,Flairpre-trainWordEmbedding源码数据Github网址:词向量预训练实现Githubf ... [详细]

蜡笔小新 2023-10-16 12:14:34

手机用户2502907603

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章