当前位置: 开发笔记 > 编程语言 > 正文

【论文详解】DPED：DSLRQualityPhotosonMobileDeviceswithDeepConvolutionalNetworks

作者：突击手丶罪域 | 来源：互联网 | 2023-09-23 20:17

目录1.论文概述2.效果展示3.网络内容介绍3.1作者的贡献3.2网络数据3.3网络结构3.4损失函数3.4.1颜色损失。3.4.2纹理损失textureslos

1.论文概述

2.效果展示

3.网络内容介绍

3.1作者的贡献

3.2 网络数据

3.3 网络结构

3.4 损失函数

3.4.1颜色损失。

3.4.2纹理损失textures loss。

3.4.3内容损失 content loss。

3.4.4梯度损失 total variation loss。

1.论文概述
这是一篇关于图像增强的神经网络论文&＃xff0c;将手机照片作为输入&＃xff0c;将DSLR相机拍出的照片作为target&＃xff0c;通过网络使其学习到一个映射函数&＃xff0c;希望手机能拍出相机照片的效果。论文地址&＃xff0c;基于TensorFlow的github代码。

2.效果展示
上图中右边是原始图&＃xff0c;左边是增强后的图&＃xff0c;可以看出效果还是显著的。言归正传&＃xff0c;下面一一介绍其细节。

3.网络内容介绍

3.1作者的贡献

提出了一个新颖的端对端的方式&＃xff0c;使其学习到从手机到DSLR相机的一种特征映射。
作者贡献了大量的数据集&＃xff0c;有6k张使用DSLR相机采集的照片&＃xff0c;以及三种不同的手机照片。
提出了多种loss函数融合&＃xff0c;有content loss&＃xff0c;textures loss&＃xff0c;color loss&＃xff0c;tv loss&＃xff0c;有效的对图像质量进行评估。这里多种loss函数相当于实现了不同的图像增强&＃xff08;纹理增强&＃xff0c;颜色增强&＃xff0c;内容增强&＃xff0c;细节增强&＃xff09;
实验客观的评估了其算法&＃xff0c;表明算法能够使手机照片生成DSLR相机质量的图像

3.2 网络数据

作者为了得到图像对也就是质量差的手机照片与高质量的DSLR图像&＃xff0c;作者同时将三种不同的手机与相机进行同时拍摄。所以的照片均在白天拍摄&＃xff0c;虽然同时同地拍摄&＃xff0c;但仍然难保证图像对是完美的一模一样对齐。为了得到对齐的图像对&＃xff0c;采用了SIFT匹配算法。而网络的输入是采用分辨率是100x100的三通道patch块&＃xff0c;作者提出大的图像块对结果也没多大的提升&＃xff0c;而且小的patch还可以减少计算资源。最终每个pathch作为网络的输入以及之前通过的匹配算法最终使得每个图像对的偏移像素不超过5个。

3.3 网络结构

可以看出整个网络的框架是个基于GAN对抗网络的图像增强。先看图像增强网络也就是GAN的生成网络&＃xff0c;将三通道的图像patch作为输入&＃xff0c;经过4个残差block后&＃xff0c;每个残差block里面有两个卷积层。经过残差block后再经过了三个卷积层&＃xff0c;最后一个卷积层的特征图是三通道的。整个增强网络一共有12层。同增强网络得到的enhanced image可以计算出两种损失函数&＃xff0c;color loss和tv loss.其中color loss还需要target图像与enhanced image一起作为参考计算得到。target这里就是DSLR的图像patch。

根据作者的代码里下面的判别网络的输入是单通道的灰度图。但是此单通道的灰度图是上面增强网络生成的图像与target图像一起融合生成的&＃xff0c;至于融合的方式各有不同&＃xff0c;作者是采用权重方式&＃xff0c;还可以通过将两图进行concatate起来&＃xff0c;多通道输入。下面的判别网络&＃xff0c;有5层卷积层&＃xff0c;一个全连接&＃xff0c;全连接的神经元是1024&＃xff0c;并最后生成2维的概率向量。[batchsize,2].此时就相当于二分类问题了&＃xff0c;由于判别网络有target作为监督&＃xff0c;其原型就是CGAN了。得到二分类的概率后由交叉熵可以得到对抗网络的损失&＃xff0c;此损失用于对抗网络的反向传播求导。刚才得到的交叉熵损失同时可以作为textures loss。

最下面还可以看到还有一个预训练的VGG网络&＃xff0c;此网络用于特征提取&＃xff0c;分别将增强网络产生的图像和target分别输入&＃xff0c;此网络用于得到content loss&＃xff0c;其原则就是&＃xff0c;如果enhenced image与target很接近的话&＃xff0c;那么都通过VGG网络提取特征后两者所提取的特征也就是很接近的&＃xff0c;此次用欧式距离来评价content loss。至此几个损失函数都介绍完了。

不过最终的增强网络的总损失为contentLoss colorLoss&＃xff0c;tvLoss,texturesLoss相加和。将此损失作为增强网络的损失进行梯度下降方向传播。下面再一一介绍其各种损失函数。

3.4 损失函数

3.4.1颜色损失。

颜色损失&＃xff0c;分别将增强网络得到的enhenced image与target先进行高斯模糊&＃xff0c;也就是去掉部分的边缘细节纹理部分&＃xff0c;剩下的能作为比较的就是对比度&＃xff0c;颜色了。采用高斯核处理后度量颜色损失的原因是人的视觉对颜色变化不是特别敏感&＃xff0c;颜色在局部比较平滑。所以模糊核消除了纹理部分&＃xff0c;内容部分&＃xff0c;留下color作为评价也就是color loss。同时color loss&＃xff08;加了个模糊核&＃xff09;也有个好处&＃xff0c;就是其能够保证图像的局部平移不变性。以下图为例

上图横坐标是图像的像素偏移量&＃xff0c;纵坐标是其对应的误差&＃xff0c;可以明显的看出在有像素偏移个数大于5时&＃xff0c;colorloss明显的比mseloss要小&＃xff0c;一般图像的评价用mse对每个像素进行评价&＃xff0c;此时用colorloss看出&＃xff0c;即使图像由像素的偏移&＃xff0c;colorloss作为损失后对模型更鲁棒&＃xff0c;表现出来的就是其误差够小&＃xff0c;至少是比用Mse评价的标准要小。

3.4.2纹理损失textures loss。

作者在对抗网络里面没有采用预定义的损失函数&＃xff0c;而选择一种比较好的损失并且还可以用来评价图像的纹理信息。损失函数用交叉熵函数。作者在对抗网络里进行评价纹理损失&＃xff0c;将灰度图作为输入&＃xff0c;其原因是图像的纹理信息与灰度空间分布有关。具体可以参考纹理与灰度的关系。通过最终对抗网络最终达到平衡以间接的保证增强网络的纹理信息。

3.4.3内容损失 content loss。

分别将增强网络的图像与target图像均输入到VGG网络中用于提取特征&＃xff0c;其原理是如果增强网络学习到的与target图像很像&＃xff0c;则经过VGG网络提取特征后两者特征也很接近。内容损失是基于VGG网络提取特征进行评价。与直接进行像素一对一进行评价其内容外&＃xff0c;可以选择一个更好的损失函数可以对图像的多方面比如纹理啊&＃xff0c;图像的感知质量等进行特征的表达。能够尽量的保证图像的语义信息&＃xff0c;而仅仅只考虑图像的像素级别一一对有时并不能对图像内容进行量化。作者通过VGG网络提取特征后进行欧式距离评价。

3.4.4梯度损失 total variation loss。

梯度损失也就是整体上对图像进行微小的平滑&＃xff0c;同时有效的去除椒盐噪声。

总损失 &＃61;weights(contenloss &＃43;texturesloss &＃43;colorloss&＃43;tvloss )&＃xff0c;总损失为以上各损失的加权和&＃xff0c;将此总损失作为增强网络的损失进行约束增强网络&＃xff0c;使其产生一种很好的由手机到DSLR相机的映射。

4. 作者论文网络还存在的缺陷

作者通过增强后的图像显示&＃xff0c;部分图像存在一些不可避免的缺陷。其中两个典型的缺陷出现在增强后的图像上。

颜色偏差&＃xff0c;如下图第一张图片&＃xff08;第一张为原图像&＃xff0c;第二行为增强后的图像&＃xff09;
对比度提高&＃xff08;下图第二张图片&＃xff09;

尽管这些缺陷经常引起看起来还算比较合理的视觉效果&＃xff0c;但有时候会导致图像内容的改变看起来像是人工的伪点。

另外一个显著的缺陷是&＃xff0c;由于GAN的自然特点&＃xff0c;当源图像有噪声时&＃xff0c;增强后的图像中噪声将会被放大.&＃xff08;如下图第二张和第三张图像&＃xff09;&＃xff0c;不过一般手机拍照出的低质量图像也很少有噪声。

最后&＃xff0c;由于此算法在源图像和目标图像存在强的对应匹配关系&＃xff0c;即需要强监督学习&＃xff0c;这对于其他的相机来说是比较繁琐的&＃xff0c;即需要一种弱监督的方式&＃xff0c;同样&＃xff0c;他们课题组提出了另外一篇paperWESPE: Weakly Supervised Photo Enhancer for Digital Cameras&＃xff0c;期待下一期对此paper的讲解。

推荐阅读

io
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
io
中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程

中国学者实现 CNN 全程可视化，详尽展示每次卷积、ReLU 和池化过程 ... [详细]

蜡笔小新 2024-11-03 13:52:28
io
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
io
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
io
网站访问全流程解析

本文详细介绍了从用户在浏览器中输入一个域名（如www.yy.com）到页面完全展示的整个过程，包括DNS解析、TCP连接、请求响应等多个步骤。 ... [详细]

蜡笔小新 2024-11-12 18:13:16
io
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
io
字节流(InputStream和OutputStream)，字节流读写文件，字节流的缓冲区，字节缓冲流

字节流抽象类InputStream和OutputStream是字节流的顶级父类所有的字节输入流都继承自InputStream，所有的输出流都继承子OutputStreamInput ... [详细]

蜡笔小新 2024-11-12 14:07:25
io
Java中com.sun.codemodel.JBlock._continue()方法详解及示例

本文介绍了Java中的com.sun.codemodel.JBlock._continue()方法，并提供了多个实际代码示例，帮助开发者更好地理解和使用该方法。 ... [详细]

蜡笔小新 2024-11-12 10:16:29
io
利用 Node.js 和 Express（4.x 及以上版本）构建高效文件上传功能

本文介绍了如何使用 Node.js 和 Express（4.x 及以上版本）构建高效的文件上传功能。通过引入 `multer` 中间件，可以轻松实现文件上传。首先，需要通过 `npm install multer` 安装该中间件。接着，在 Express 应用中配置 `multer`，以处理多部分表单数据。本文详细讲解了 `multer` 的基本用法和高级配置，帮助开发者快速搭建稳定可靠的文件上传服务。 ... [详细]

蜡笔小新 2024-11-11 18:02:17
io
技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统

技术分享：使用 Flask、AngularJS 和 Jinja2 构建高效前后端交互系统 ... [详细]

蜡笔小新 2024-11-11 15:24:24
jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
io
深入解析经典卷积神经网络及其实现代码

深入解析经典卷积神经网络及其实现代码 ... [详细]

蜡笔小新 2024-11-01 11:16:09
io
语义、实例与全景分割的对比分析（Comparative Analysis of Semantic, Instance, and Panoptic Segmentation）

图像分割技术在人工智能领域中扮演着关键角色，其中语义分割、实例分割和全景分割是三种主要的方法。本文对这三种分割技术进行了详细的对比分析，探讨了它们在不同应用场景中的优缺点和适用范围，为研究人员和从业者提供了有价值的参考。 ... [详细]

蜡笔小新 2024-10-29 18:51:14
io
不用蘑菇，不拾金币，我通过强化学习成功通关29关马里奥，创造全新纪录

《超级马里奥兄弟》由任天堂于1985年首次发布，是一款经典的横版过关游戏，至今已在多个平台上售出超过5亿套。该游戏不仅勾起了许多玩家的童年回忆，也成为强化学习领域的热门研究对象。近日，通过先进的强化学习技术，研究人员成功让AI通关了29关，创造了新的纪录。这一成就不仅展示了强化学习在游戏领域的潜力，也为未来的人工智能应用提供了宝贵的经验。 ... [详细]

蜡笔小新 2024-10-28 10:11:47
io
PyTorch常见预训练模型的下载链接及使用指南

本文提供了PyTorch框架中常用的预训练模型的下载链接及详细使用指南，涵盖ResNet、Inception、DenseNet、AlexNet、VGGNet等六大分类模型。每种模型的预训练参数均经过精心调优，适用于多种计算机视觉任务。文章不仅介绍了模型的下载方式，还详细说明了如何在实际项目中高效地加载和使用这些模型，为开发者提供全面的技术支持。 ... [详细]

蜡笔小新 2024-10-27 13:57:42