当前位置: 开发笔记 > 编程语言 > 正文

3D版DALLE来了！谷歌发布文本3D生成模型DreamFusion，给一个文本提示就能生成3D模型！...

作者：维伦忆任冠臻 | 来源：互联网 | 2023-08-14 17:08

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达点击进入—CV微信技术交流群转载自：新智元|编辑：LRS

点击下方卡片&＃xff0c;关注“CVer”公众号

AI/CV重磅干货&＃xff0c;第一时间送达

点击进入—> CV 微信技术交流群

转载自&＃xff1a;新智元 | 编辑&＃xff1a;LRS

【导读】给一个文本提示就能生成3D模型&＃xff01;

自从文本引导的图像生成模型火了以后&＃xff0c;画家群体迅速扩张&＃xff0c;不会用画笔的人也能发挥想象力进行艺术创作。

但目前的模型&＃xff0c;如DALL-E 2, Imagen等仍然停留在二维创作&＃xff08;即图片&＃xff09;&＃xff0c;无法生成360度无死角的3D模型。

想要直接训练一个text-to-3D的模型非常困难&＃xff0c;因为DALL-E 2等模型的训练需要吞噬数十亿个图像-文本对&＃xff0c;但三维合成并不存在如此大规模的标注数据&＃xff0c;也没有一个高效的模型架构对3D数据进行降噪。

最近Google研究员另辟蹊径&＃xff0c;提出一个新模型DreamFusion&＃xff0c;先使用一个预训练2D扩散模型基于文本提示生成一张二维图像&＃xff0c;然后引入一个基于概率密度蒸馏的损失函数&＃xff0c;通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。

论文链接&＃xff1a;https://arxiv.org/abs/2209.14988

训练后的模型可以在任意角度、任意光照条件、任意三维环境中基于给定的文本提示生成模型&＃xff0c;整个过程既不需要3D训练数据&＃xff0c;也无需修改图像扩散模型&＃xff0c;完全依赖预训练扩散模型作为先验。

从文本到3D模型

以文本为条件的生成性图像模型现在支持高保真、多样化和可控的图像合成&＃xff0c;高质量来源于大量对齐的图像-文本数据集和可扩展的生成模型架构&＃xff0c;如扩散模型。

虽然二维图像生成的应用场景十分广泛&＃xff0c;但诸如游戏、电影等数字媒体仍然需要成千上万的详细的三维资产来填充丰富的互动环境。

目前&＃xff0c;3D资产的获取方式主要由Blender和Maya3D等建模软件手工设计&＃xff0c;这个过程需要耗费大量的时间和专业知识。

2020年&＃xff0c;神经辐射场&＃xff08;NeRF&＃xff09;模型发布&＃xff0c;其中体积光线追踪器与从空间坐标到颜色和体积密度的神经映射相结合&＃xff0c;使得NeRF已经成为神经逆向渲染的一个重要工具。

最初&＃xff0c;NeRF被发现可以很好地用于「经典」的三维重建任务&＃xff1a;一个场景下的不同角度图像提供给一个模型作为输入&＃xff0c;然后优化NeRF以恢复该特定场景的几何形状&＃xff0c;能够从未观察到的角度合成该场景的新视图。

很多三维生成方法都是基于NeRF模型&＃xff0c;比如2022年提出的Dream Fields使用预训练的CLIP模型和基于优化的方法来训练NeRF&＃xff0c;直接从文本中生成3D模型&＃xff0c;但这种方式生成的三维物体往往缺乏真实性和准确性。

DreamFusion采用了与Dream Field类似的方法&＃xff0c;但模型中的损失函数基于概率密度蒸馏&＃xff0c;最小化基于扩散的前向过程的共享的高斯分布族与预训练的扩散模型所学习的分数函数之间的KL散度。

扩散模型是一个隐变量生成模型&＃xff0c;学习如何逐步将一个样本从简单的噪声分布转换到数据分布。

扩散模型的包括一个前向过程&＃xff08;forward process&＃xff09;&＃xff0c;缓慢地从数据中添加噪声并移除结构&＃xff0c;两个时间步之间的过渡通常服从高斯分布&＃xff0c;并在反向过程&＃xff08;reverse process&＃xff09;或生成式模型中在噪声上逐渐添加结构。

现有的扩散模型采样方法产生的样本与模型训练的观测数据类型和维度相同&＃xff0c;尽管有条件的扩散采样能够实现相当大的灵活性&＃xff0c;但在像素上训练的扩散模型传统上只用来对像素进行采样。

但像素采样并不重要&＃xff0c;研究人员只希望创建的三维模型在从随机角度渲染时&＃xff0c;看起来像是一张好的图像。

可微分图像参数化&＃xff08;DIP&＃xff09;允许模型表达约束条件&＃xff0c;在更紧凑的空间中进行优化&＃xff08;例如任意分辨率的基于坐标的MLPs&＃xff09;&＃xff0c;或利用更强大的优化算法来遍历像素空间。

对于三维来说&＃xff0c;参数θ是三维体积的参数&＃xff0c;可微生成器g是体积渲染器&＃xff0c;为了学习这些参数&＃xff0c;需要一个可以应用于扩散模型的损失函数。

文中采用的方法是利用扩散模型的结构&＃xff0c;通过优化实现可操作的取样&＃xff0c;当损失函数最小化时生成一个样本&＃xff0c;然后对参数θ进行优化&＃xff0c;使x&＃61;g(θ)看起来像冻结扩散模型的样本。

为了进行这种优化&＃xff0c;还需要一个可微的损失函数&＃xff0c;其中可信的图像具有较低的损失&＃xff0c;而不可信的图像有高的损失&＃xff0c;与DeepDream的过程类似。

在实践中&＃xff0c;研究人员发现即使是在使用一个相同的DIP时&＃xff0c;损失函数也无法生成现实的样本。但同期的一项工作表明&＃xff0c;这种方法可以通过精心选择的时间步长来实现&＃xff0c;但这个目标很脆弱&＃xff0c;其时间步长的调整也很困难。

通过观察和分解梯度可以发现&＃xff0c;U-Net Jacobian项的计算成本很高&＃xff08;需要通过扩散模型U-Net进行反向传播&＃xff09;&＃xff0c;而且对于小的噪声水平来说条件很差&＃xff0c;因为它的训练目标为近似于边际密度的缩放Hessian

通过实验&＃xff0c;研究人员发现省略U-Net的Jacobian项可以带来一个有效的梯度结果&＃xff0c;能够用于优化带有扩散模型的DIPs

直观来看&＃xff0c;这个损失用对应于时间步长的随机数量的噪声来扰动输入数据&＃xff0c;并估计出一个更新方向&＃xff0c;该方向遵循扩散模型的得分函数&＃xff0c;以移动到一个更高密度的区域。

虽然这种用扩散模型学习DIP的梯度可能看起来很特别&＃xff0c;但实验结果表明更新方向确实是从扩散模型学到的得分函数中得到的加权概率密度蒸馏损失的梯度。

研究人员将该采样方法命名为得分蒸馏采样&＃xff08;Score Distillation Sampling, SDS&＃xff09;&＃xff0c;因为该过程与蒸馏有关&＃xff0c;但使用的是得分函数而不是密度。

下一步就是通过将SDS与为该3D生成任务定制的NeRF变体相结合&＃xff0c;DreamFusion可以为一组不同的用户提供的文本提示生成了高保真的连贯的3D物体和场景。

文章中采用的预训练扩散模型为Imagen&＃xff0c;并且只使用分辨率为64×64的基础模型&＃xff0c;并按原样使用这个预训练的模型&＃xff0c;不做任何修改。

然后用随机权重初始化一个类似于NeRF的模型&＃xff0c;从随机的相机位置和角度反复渲染该NeRF的视图&＃xff0c;用这些渲染结果作为环绕Imagen的分数蒸馏损失函数的输入。

给出一个预训练好的文本到图像的扩散模型&＃xff0c;一个以NeRF形式存在的可w微分的图像参数化DIP&＃xff0c;以及一个损失函数&＃xff08;最小值代表好样本&＃xff09;&＃xff0c;这样无三维数据的文本到三维合成所需的所有组件就齐活了。

对于每个文本提示&＃xff0c;都从头开始训练一个随机初始化的NeRF。

DreamFusion优化的每次迭代都包含四步&＃xff1a;

1、随机采样一个相机和灯光

在每次迭代中&＃xff0c;相机位置在球面坐标中被随机采样&＃xff0c;仰角范围从-10°到90°&＃xff0c;方位角从0°到360°&＃xff0c;与原点的距离为1到1.5

同时还在原点周围取样一个看&＃xff08;look-at&＃xff09;的点和一个向上&＃xff08;up&＃xff09;的矢量&＃xff0c;并将这些与摄像机的位置结合起来&＃xff0c;创建一个摄像机的姿势矩阵。同时对焦距乘数服从U(0.7, 1.35)进行采样&＃xff0c;点光位置是从以相机位置为中心的分布中采样的。

使用广泛的相机位置对合成连贯的三维场景至关重要&＃xff0c;宽泛的相机距离也有助于提高学习场景的分辨率。

2、从该相机和灯光下渲染NeRF的图像

考虑到相机的姿势和光线的位置&＃xff0c;以64×64的分辨率渲染阴影NeRF模型。在照明的彩色渲染、无纹理渲染和没有任何阴影的反照率渲染之间随机选择。

3、计算SDS损失相对于NeRF参数的梯度

通常情况下&＃xff0c;文本prompt描述的都是一个物体的典型视图&＃xff0c;在对不同的视图进行采样时&＃xff0c;这些视图并不是最优描述。根据随机采样的相机的位置&＃xff0c;在提供的输入文本中附加与视图有关的文本是有益的。

对于大于60°的高仰角&＃xff0c;在文本中添加俯视&＃xff08;overhead view&＃xff09;&＃xff0c;对于不大于60°的仰角&＃xff0c;使用文本embedding的加权组合来添加前视图、侧视图或后视图&＃xff0c;具体取决于方位角的值。

4、使用优化器更新NeRF参数

3D场景在一台有4个芯片的TPUv4机器上进行了优化&＃xff0c;每个芯片渲染一个单独的视图并评估扩散U-Net&＃xff0c;每个设备的batch size为1。优化了15,000次迭代&＃xff0c;大约需要1.5小时。

实验部分评估了DreamFusion从各种文本提示中生成连贯的3D场景的能力。

与现有的zero-shot文本到3D生成模型进行比较后可以发现&＃xff0c;DreamFusion模型中能够实现精确3D几何的关键组件。

通过对比DreamFusion和几个基线的R-精度&＃xff0c;包括Dream Fields、CLIP-Mesh和一个评估MS-COCO中原始字幕图像的oracle&＃xff0c;可以发现DreamFusion在彩色图像上的表现超过了这两个基线&＃xff0c;并接近于ground-truth图像的性能。

虽然Dream Fields的实现在用无纹理渲染评估几何图形&＃xff08;Geo&＃xff09;时表现得很好&＃xff0c;但DreamFusion在58.5%的情况里与标准一致。

参考资料&＃xff1a;

https://twitter.com/poolio/status/1575576632068214785?s&＃61;46&t&＃61;9pUi464Bkyw93WTGhU-cQg

https://dreamfusion3d.github.io/

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复&＃xff1a;CVPR2022&＃xff0c;即可下载CVPR 2022论文和代码开源的论文合集

后台回复&＃xff1a;Transformer综述&＃xff0c;即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立扫描下方二维码&＃xff0c;或者添加微信&＃xff1a;CVer222&＃xff0c;即可添加CVer小助手微信&＃xff0c;便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖&＃xff1a;目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。一定要备注&＃xff1a;研究方向&＃43;地点&＃43;学校/公司&＃43;昵称&＃xff08;如目标检测或者Transformer&＃43;上海&＃43;上交&＃43;卡卡&＃xff09;&＃xff0c;根据格式备注&＃xff0c;可更快被通过且邀请进群▲扫码或加微信号: CVer222&＃xff0c;进交流群 CVer学术交流群&＃xff08;知识星球&＃xff09;来了&＃xff01;想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料&＃xff0c;欢迎扫描下方二维码&＃xff0c;加入CVer学术交流群&＃xff0c;已汇集数千人&＃xff01;▲扫码进群 ▲点击上方卡片&＃xff0c;关注CVer公众号

整理不易&＃xff0c;请点赞和在看

推荐阅读

php
Android 渐变圆环加载控件实现

本文介绍了如何在 Android 中创建一个自定义的渐变圆环加载控件，该控件已在多个知名应用中使用。我们将详细探讨其工作原理和实现方法。 ... [详细]

蜡笔小新 2024-12-27 13:34:19
list
优化ListView性能

本文深入探讨了如何通过多种技术手段优化ListView的性能，包括视图复用、ViewHolder模式、分批加载数据、图片优化及内存管理等。这些方法能够显著提升应用的响应速度和用户体验。 ... [详细]

蜡笔小新 2024-12-28 10:36:30
list
非公版RTX 3080显卡的革新与亮点

本文深入探讨了图形显卡的进化历程，重点介绍了非公版RTX 3080显卡的技术特点和创新设计。 ... [详细]

蜡笔小新 2024-12-28 13:07:40
list
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
list
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
list
如何通过按钮聚焦ListView的TextCell？ - How to focus ListView's TextCell by button?

IneedtofocusTextCellsonebyoneviaabuttonclick.ItriedlistView.ScrollTo.我需要通过点击按钮逐个关注Tex ... [详细]

蜡笔小新 2024-12-27 17:02:23
list
Yii2 GridView 实现列表页数据直接编辑的完整指南

本文详细介绍了如何使用 Yii2 的 GridView 组件在列表页面实现数据的直接编辑功能。通过具体的代码示例和步骤，帮助开发者快速掌握这一实用技巧。 ... [详细]

蜡笔小新 2024-12-27 16:27:52
list
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
list
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22
list
DataGridView 保存时，为什么当前单元格的值无法保存？

在使用 DataGridView 时，如果在当前单元格中输入内容但光标未移开，点击保存按钮后，输入的内容可能无法保存。只有当光标离开单元格后，才能成功保存数据。本文将探讨如何通过调用 DataGridView 的内置方法解决此问题。 ... [详细]

蜡笔小新 2024-12-27 09:27:14
list
RecyclerView初步学习(一)

RecyclerView初步学习(一)ReCyclerView提供了一种插件式的编程模式，除了提供ViewHolder缓存模式，还可以自定义动画，分割符，布局样式，相比于传统的ListVi ... [详细]

蜡笔小新 2024-12-26 20:24:01
list
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
list
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
list
JQuery基础：省市联动与表单验证

本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先，通过change事件监听用户选择的省份，并动态加载对应的城市列表。其次，详细讲解了使用Validation插件进行表单验证的方法，包括内置规则、自定义规则及实时验证功能。 ... [详细]

蜡笔小新 2024-12-27 17:10:48
list
深入解析ExpandableComposite.addExpansionListener()方法及其应用

本文详细介绍了Java中org.eclipse.ui.forms.widgets.ExpandableComposite类的addExpansionListener()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。这些示例来源于多个知名开源项目，具有很高的参考价值。 ... [详细]

蜡笔小新 2024-12-27 16:11:49

维伦忆任冠臻

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章