当前位置: 开发笔记 > 编程语言 > 正文

扩散模型和Transformer梦幻联动！替换UNet，一举拿下新SOTA！

作者：077是个好姑娘 | 来源：互联网 | 2023-08-21 08:59

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达点击进入—扩散模型微信技术交流群转载自：量子位“U-Net已死

点击下方卡片&＃xff0c;关注“CVer”公众号

AI/CV重磅干货&＃xff0c;第一时间送达

点击进入—>扩散模型微信技术交流群

转载自&＃xff1a;量子位

“U-Net已死&＃xff0c;Transformer成为扩散模型新SOTA了&＃xff01;”

就在ChatGPT占尽AI圈风头时&＃xff0c;纽约大学谢赛宁的图像生成模型新论文横空出世&＃xff0c;收获一众同行惊讶的声音。

△MILA在读ML博士生Ethan Caballero

论文创意性地将Transformer与扩散模型融合&＃xff0c;在计算效率和生成效果上均超越了基于U-Net的经典模型ADM和LDM&＃xff0c;打破了U-Net统治扩散模型的“普遍认知”。

网友给这对新组合命名也是脑洞大开&＃xff1a;

All we need is U-Transformer
希望他们没有错过Transffusion这个名字。

要知道&＃xff0c;这几年虽然Transformer占尽风头&＃xff0c;但U-Net在扩散模型领域仍然一枝独秀——

无论是“前任王者”DALL·E2还是“新晋生成AI”Stable Diffusion&＃xff0c;都没有使用Transformer作为图像生成架构。

△英伟达AI科学家Jim Fan

如今新研究表明&＃xff0c;U-Net并非不可用Transformer替代。

“U-Net并非不可替代”

论文提出的新架构名叫Diffusion Transformers&＃xff08;DiTs&＃xff09;。

架构保留了很多ViT的特性&＃xff0c;其中整体架构如图左&＃xff08;包含多个DiT模块&＃xff09;&＃xff0c;具体的DiT模块组成如图右&＃xff1a;

更右边的两个灰色框的模块&＃xff0c;则是DiT架构的“变体”。主要是探讨在条件输入下&＃xff0c;不同的架构是否能对信息进行更好的处理&＃xff0c;包括交叉注意力等。

最终结果表明&＃xff0c;还是层归一化&＃xff08;Layer Normalization&＃xff09;更好用&＃xff0c;这里最终选用了Adaptive Layer Normalization&＃xff08;自适应层归一化&＃xff09;的方法。

对于这篇论文研究的目的&＃xff0c;作者表示希望探讨扩散模型中不同架构选择的重要性&＃xff0c;以及也是给将来生成模型的评估做一个评判标准。

先说结果——作者认为&＃xff0c;U-Net的归纳偏置&＃xff08;inductive bias&＃xff09;&＃xff0c;对于扩散模型性能提升不是必须的。

与之相反&＃xff0c;他们能“轻松地”&＃xff08;readily&＃xff09;被Transformer的标准架构取代。

有网友发现&＃xff0c;DALL·E和DALL·E2似乎都有用到Transformer。

这篇论文和它们的差异究竟在哪里&＃xff1f;

事实上&＃xff0c;DALL·E虽然是Transformer&＃xff0c;但并非扩散模型&＃xff0c;本质是基于VQVAE架构实现的&＃xff1b;

至于DALL·E2和Stable Diffusion&＃xff0c;虽然都分别将Transformer用在了CLIP和文本编码器上&＃xff0c;但关键的图像生成用的还是U-Net。

△经典U-Net架构

不过&＃xff0c;DiT还不是一个文本生成图像模型——目前只能基于训练标签生成对应的新图像。

虽然生成的图片还带着股“ImageNet风”&＃xff0c;不过英伟达AI科学家Jim Fan认为&＃xff0c;将它改造成想要的风格和加上文本生成功能&＃xff0c;都不是难点。

如果将标签输入调整成其他向量、乃至于文本嵌入&＃xff0c;就能很快地将DiT改造成一个文生图模型&＃xff1a;

Stable-DiT马上就要来了&＃xff01;

所以DiTs在生成效果和运算速率上&＃xff0c;相比其他图像生成模型究竟如何&＃xff1f;

在ImageNet基准上取得SOTA

为了验证DiTs的最终效果&＃xff0c;研究者将DiTs沿“模型大小”和“输入标记数量”两个轴进行了缩放。

具体来说&＃xff0c;他们尝试了四种不同模型深度和宽度的配置&＃xff1a;DiT-S、DiT-B、DiT-L和DiT-XL&＃xff0c;在此基础上又分别训练了3个潜块大小为8、4和2的模型&＃xff0c;总共是12个模型。

从FID测量结果可以看出&＃xff0c;就像其他领域一样&＃xff0c;增加模型大小和减少输入标记数量可以大大提高DiT的性能。

FID是计算真实图像和生成图像的特征向量之间距离的一种度量&＃xff0c;越小越好。

换句话说&＃xff0c;较大的DiTs模型相对于较小的模型是计算效率高的&＃xff0c;而且较大的模型比较小的模型需要更少的训练计算来达到给定的FID。

其中&＃xff0c;Gflop最高的模型是DiT-XL/2&＃xff0c;它使用最大的XL配置&＃xff0c;patch大小为2&＃xff0c;当训练时间足够长时&＃xff0c;DiT-XL/2就是里面的最佳模型。

于是在接下来&＃xff0c;研究人员就专注于DiT-XL/2&＃xff0c;他们在ImageNet上训练了两个版本的DiT-XL/2&＃xff0c;分辨率分别为256x256和512x512&＃xff0c;步骤分别为7M和3M。

当使用无分类器指导时&＃xff0c;DiT-XL/2比之前的扩散模型数据都要更好&＃xff0c;取得SOTA效果&＃xff1a;

在256x256分辨率下&＃xff0c;DiT-XL/2将之前由LDM实现的最佳FID-50K从3.60降至了2.27。

并且与基线相比&＃xff0c;DiTs模型本身的计算效率也很高&＃xff1a;

DiT-XL/2的计算效率为119 Gflops&＃xff0c;相比而言LDM-4是103 Gflops&＃xff0c;ADM-U则是742 Gflops。

同样&＃xff0c;在512x512分辨率下&＃xff0c;DiT-XL/2也将ADM-U之前获得的最佳FID 3.85降至了3.04。

不过此时ADM-U的计算效率是2813 Gflops&＃xff0c;而XL/2只有525 Gflops。

研究作者

本篇论文作者为UC伯克利的William Peebles和纽约大学的谢赛宁。

Scalable Diffusion Models with Transformers
论文地址&＃xff1a;

https://arxiv.org/abs/2212.09748

代码&＃xff1a;https://github.com/facebookresearch/DiT

William Peebles&＃xff0c;目前是UC伯克利的四年级博士生&＃xff0c;本科毕业于麻省理工学院。研究方向是深度学习和人工智能&＃xff0c;重点是深度生成模型。

之前曾在Meta、Adobe、英伟达实习过&＃xff0c;这篇论文就是在Meta实习期间完成。

谢赛宁&＃xff0c;纽约大学计算机科学系助理教授&＃xff0c;之前曾是Meta FAIR研究员&＃xff0c;本科就读于上海交通大学ACM班&＃xff0c;博士毕业于UC圣迭戈分校。

谢赛宁读博士时曾在FAIR实习&＃xff0c;期间与何恺明合作完成ResNeXt&＃xff0c;是该论文的一作&＃xff0c;之前何恺明一作论文MAE他也有参与。

当然&＃xff0c;对于这次Transformer的表现&＃xff0c;也有研究者们表示“U-Net不服”。

例如三星AI Lab科学家Alexia Jolicoeur-Martineau就表示&＃xff1a;

U-Net仍然充满生机&＃xff0c;我相信只需要经过细小调整&＃xff0c;有人能将它做得比Transformer更好。

看来&＃xff0c;图像生成领域很快又要掀起新的“较量风暴”了。

参考链接&＃xff1a;
[1]https://twitter.com/ethanCaballero/status/1605621603135471616
[2]https://www.wpeebles.com/DiT
[3]https://paperswithcode.com/paper/scalable-diffusion-models-with-transformers#code

点击进入—>扩散模型微信技术交流群

DiT论文和代码下载

后台回复&＃xff1a;DiT&＃xff0c;即可下载上面论文和代码

目标检测和Transformer交流群成立扫描下方二维码&＃xff0c;或者添加微信&＃xff1a;CVer222&＃xff0c;即可添加CVer小助手微信&＃xff0c;便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖&＃xff1a;目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注&＃xff1a;研究方向&＃43;地点&＃43;学校/公司&＃43;昵称&＃xff08;如目标检测或者Transformer&＃43;上海&＃43;上交&＃43;卡卡&＃xff09;&＃xff0c;根据格式备注&＃xff0c;可更快被通过且邀请进群▲扫码或加微信号: CVer222&＃xff0c;进交流群 CVer学术交流群&＃xff08;知识星球&＃xff09;来了&＃xff01;想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料&＃xff0c;欢迎扫描下方二维码&＃xff0c;加入CVer学术交流群&＃xff0c;已汇集数千人&＃xff01;▲扫码进群 ▲点击上方卡片&＃xff0c;关注CVer公众号

整理不易&＃xff0c;请点赞和在看

推荐阅读

include
fasttext整体介绍

Word2vec,Fasttext,Glove,Elmo,Bert,Flairpre-trainWordEmbedding源码数据Github网址:词向量预训练实现Githubf ... [详细]

蜡笔小新 2023-10-16 12:14:34
js
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
java
Android中高级面试必知必会，积累总结

本文介绍了Android中高级面试的必知必会内容，并总结了相关经验。文章指出，如今的Android市场对开发人员的要求更高，需要更专业的人才。同时，文章还给出了针对Android岗位的职责和要求，并提供了简历突出的建议。 ... [详细]

蜡笔小新 2023-12-14 14:53:02
web
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
chat
校园表白墙微信小程序，校园小情书、告白墙、论坛，大学表白墙搭建教程

小程序的名字必须和你微信注册的名称一模一样在后台注册好小程序。mp.wx-union.cn后台域名https。mp.wx-union.cn ... [详细]

蜡笔小新 2023-10-17 13:53:34
controller
开发笔记:Flutter 添加APP启动 Story View

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Flutter添加APP启动StoryView相关的知识，希望对你有一定的参考价值。 ... [详细]

蜡笔小新 2023-10-16 22:01:00
controller
都说Python处理速度慢，为何月活7亿的 Instagram依然在使用Python？

点击“Python编程与实战”，选择“置顶公众号”第一时间获取Python技术干货！来自|简书作者|我爱学python链接|https:www.jian ... [详细]

蜡笔小新 2023-10-16 19:27:08
controller
哲学博士创立，创投教父投资，这家公司要冲击美股最大IPO了

热点追踪深度探讨实地探访商务合作当一个哲学家遇到大数据分析会发生什么？如果告诉你，这个组合曾帮助美国“猎杀拉登”，你是否会惊讶到瞪眼睛。在 ... [详细]

蜡笔小新 2023-10-16 18:24:23
byte
CodeBERT理解

1.动机大型的预训练模型，比如ELMo、GPT、Bert等提高了NLP任务的最新技术。这些预训练模型在NLP的成功驱动了多模态预训练模型，比如ViBE ... [详细]

蜡笔小新 2023-10-15 13:33:18
byte
百度高级架构师马如悦分享：我对Hadoop2.0的见解与经验

当计算任务越来越多，作业提交越来越多，企业普通的做法是，在原有的系统架构上，不停地往上堆积硬件或者加服务器。的确，hadoop设计上的优秀和可扩展性可以方便的 ... [详细]

蜡笔小新 2023-10-14 12:19:48
byte
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
byte
深度学习黑话

OCR：用字符识别方法将形状翻译成计算机文字的过程Matlab：商业数学软件；CUDA：CUDA™是一种由NVIDIA推 ... [详细]

蜡笔小新 2023-10-17 17:55:01
byte
图片文字转换成word软件好用吗？

　　图片文字都需要进行转换才能进行二次利用，因为这些文字都是不能编辑和复制的“死文字”word图片导出。进行转换的话就需要借助软件帮忙，图片文字转换成word软 ... [详细]

蜡笔小新 2023-10-17 13:51:28
text
【OCR学习笔记】What Is Wrong With Scene Text Recognition Model Comparisons Dataset and Model Analysis

文章目录摘要细节开源代码摘要提出了一个统一的四阶段STR框架。Transformation：TPS，归一化字符区域到预定义的矩形，校正图像。Featureextraction ... [详细]

蜡笔小新 2023-10-15 18:16:55
text
北交桑基韬：“超”人的机器学习，非语义特征的得与失

点击蓝字关注我们AITIME欢迎每一位AI爱好者的加入！作者|桑基韬整理|维克多人工智能目前最大的“拦路虎”是不可信赖性，以深度学习为基础的算法 ... [详细]

蜡笔小新 2023-10-14 13:04:50

077是个好姑娘

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章