热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【论文阅读】GradientGuidedImageDeblockingUsingConvolutionalNeuralNetworks的详解

论文:GradientGuidedImageDeblockingUsingConvolutionalNeuralNetworks作者:CheolkonJ

论文:Gradient Guided Image Deblocking Using Convolutional Neural Networks
作者:Cheolkon Jung
年份:2019年
期刊:ACM Multimedia Asia

文章目录

  • 摘要
  • 1 介绍
  • 2 提出的方法
    • 2.1 网络结构
    • 2.2 Gradient Inference Network
    • 2.3 Image Inference Network
  • 3 实验结果
    • 3.1 准备
    • 3.2 研究
    • 3.3 比较
  • 结论


摘要

基于块的变换编码本质上会导致块状伪影,这会严重降低图片质量,尤其是在高压缩率下。压缩图像的梯度具有与原始梯度不同的特征,原始梯度沿块边界在像素值上有巨大变化。本文提出了基于CNN的梯度引导图像去块。在输入块状图像的梯度信息的指导下,所提出的网络成功地保留了纹理边缘,同时减少了块状边缘,从而从压缩降级中恢复了原始的清晰图像。实验结果表明,输入压缩图像中的梯度信息有助于减少伪像,并且该方法在视觉质量和客观测量方面均实现了显着的性能提升。

1 介绍

深度学习已被证明具有减少压缩图像中的块状伪像的强大功能。但是,先前的工作没有考虑网络体系结构中的图像先验。本文假设梯度稀疏性先验使网络模型更精确地检测出阻塞伪像。梯度已被证明是图像恢复任务的有用提示。基于块的压缩由于独立编码而没有考虑与相邻块的相关性,从而导致块边界处的严重变化。由于独立的基于块的编码,像素值在块边界处发生了严重变化,因此它们的梯度值变高。图1显示了由JPEG图像压缩引起并由提出的梯度推断网络(GiN)估计的梯度图。 GiN估计的梯度图成功去除了沿块边界的块状边缘,这表明梯度恢复有助于图像去块。因此,本文利用压缩图像中的梯度信息作为辅助信息,对图像进行去块。仅通过边缘检测从输入的压缩图像中获得梯度信息。
本文的主要贡献如下:
(1)提出基于CNN的梯度引导图像去块。 在压缩图像的梯度信息的指导下,所提出的网络成功地保持了纹理边缘不被压缩降解,减少了块状边缘。
(2)结合了GiN和图像推理网络(IiN)的两个协作子网,以进行梯度引导的图像去块。GiN估计原始图像的梯度图,IiN生成无伪像的图像。

注: JPEG是常见的有损编码方法。
尽管JPEG由于其规则性和硬件实现的简便性而在各种应用程序中普遍采用JPEG,但它给压缩图像带来了不希望的伪像。
在JPEG编码器中,基于8×8块的独立变换和量化不可避免地在块边界引入了令人讨厌的不连续性。 低比特率时严重出现阻塞伪像。


2 提出的方法

2.1 网络结构

传统的去块方法仅将压缩伪像减少视为不适定问题,忽略了压缩图像的先验信息。 与传统方法不同,本文将梯度推断和图像推断结合到一个统一的框架中,以执行梯度引导的图像去块。 如图2所示。
在这里插入图片描述

基于CNN采用两个协作子网进行图像去块:梯度推理网络(GiN)和图像推理网络(IiN)。 GiN估计原始图像的梯度图,而IiN生成无伪像的图像,即原始图像。 两个子网具有相似的结构:特征提取,具有多个卷积层的多个单元的堆栈以及重构网络。 将𝑋和Θ分别表示为输入权重和网络权重,如下所示:
在这里插入图片描述
其中𝑓𝑒𝑥𝑡表示特征提取函数,𝐵0是提取的要发送到下一层的特征。 假设𝑁个卷积单元堆叠在特征提取的后面,得到:
在这里插入图片描述
其中𝑓𝑛表示第𝑛个单位函数,𝐵𝑛-1和𝐵𝑛分别是第𝑛个单位的输入和输出。 最后,提出的网络模型在重建网络中使用卷积层来重建残差图像,如下所示:
在这里插入图片描述
其中𝑓𝑟𝑒𝑐表示重建函数,𝐵𝑟𝑒𝑐表示重建残差。 如图2所示,𝑓𝑒𝑥𝑡和𝑓𝑟𝑒𝑐由一个卷积层进行。 将𝐹表示为所提出模型的函数,其公式如下:
在这里插入图片描述

2.2 Gradient Inference Network

梯度推理网络(GiN)旨在学习从块状图像及其梯度图到ground truth的组合的映射。 如图2所示,特征提取是通过具有64个特征图的卷积层进行的。 GiN包含4个卷积单元,由4层组成,以整流线性单元(ReLu)作为激活函数。 将∇X和∇𝑌分别表示为输入图像的梯度图及其ground truth情况。 通过最小化以下均方误差(MSE)损失函数来预测输出补丁:
在这里插入图片描述
𝐹𝐺表示GiN函数。 图1说明GiN成功去除了块状边缘,同时保留了原始图像的纹理边缘。

2.3 Image Inference Network

图像推断网络(IiN)在GiN的指导下估算无伪影的图像。 在IiN中,将6个卷积层作为一个卷积单元,每个单元都共享GiN中相应单元的特征。 串联公式如下:
在这里插入图片描述
其中B𝑛G表示来自GiN的特征图。 将MSE损失函数最小化,以估计最佳的无伪像,如下所示:
在这里插入图片描述
其中𝐹𝐼表示IiN函数,𝑍表示与GiN共享的特征图,𝑌表示ground truth的Y通道。 最终的目标函数是等式(5)和(7)的组合。 ,并且同时进行了优化。

3 实验结果

3.1 准备

通过使用MATLAB JPEG编码器以质量因子q = 40、30、20、10压缩原始图像来生成输入块图像。 所有实验均根据与ARCNN,TNRD 和DnCNN 先前方法相同的协议在亮度通道上进行。训练时,将JPEG压缩的色块用作输入,并将相应的ground truth用作标签。 考虑到训练时间和存储复杂性,从图像对中提取了步长为20的32×32色块。 每个图像对都是随机翻转或旋转的,因此最终的训练数据是两次。 将批处理大小设置为32,初始学习率设置为10−4,然后每5个周期除以2。

3.2 研究

在这里插入图片描述
在这里插入图片描述
如图所示,梯度引导会影响去块性能。 也就是说,与使用GiN的IiN相比,单独使用IiN可以实现相对较低的PSNR和SSIM改善。 它验证了梯度引导在图像恢复中起着重要作用。 除了LIVE1数据集中的PSNR结果外,具有GiN的IiN通常以较低的 quality factor(即较高的压缩率)获得更多的增益。
表1显示了units数量影响去块性能(更多的units会产生更好的性能)。 本文为GiN采用四个units。

3.3 比较

在这里插入图片描述
与三种减少伪影的方法进行了比较:ARCNN,TNRD 和最新的通用图像恢复框架DnCNN 。如表2所示,采用PSNR和SSIM作为定量测量的评估指标,这些指标广泛用于图像质量评估。总体而言,所提出的方法在所有评估指标上均优于ARCNN和TNRD,并且比DnCNN具有更好的性能。在图4和图5中,当quality factor分别为10和20时。可以看出,所提出的方法有效地去除了由块状图像的梯度信息引导的块状伪影,且可以恢复比以前更高质量的图像。恢复的图像的质量改进来自块边界附近和块内的改进。这是因为本文为图像推断和梯度推断建立了两个子网:IiN和GiN。仔细观察发现,所提出的方法可以恢复更精细的纹理边缘而AR-CNN和DnCNN易于在纹理上产生失真。 因此,所提出的方法产生具有良好纹理的视觉上令人愉悦的解块结果。
在这里插入图片描述

结论

本文提出用于图像去块的梯度引导CNN。 采用GiN和IiN的两个协作子网,并同时对其进行优化,以恢复原始图像及其梯度图。 GiN估计原始图像的梯度图,而IiN产生无伪像的图像。 在压缩图像的梯度信息的指导下,所提出的网络成功地保留了输入压缩图像的纹理边缘,同时减少了块状边缘。 实验结果表明,该方法在视觉质量和定量测量方面均优于最新的图像去块网络模型。


推荐阅读
  • 通过使用CIFAR-10数据集,本文详细介绍了如何快速掌握Mixup数据增强技术,并展示了该方法在图像分类任务中的显著效果。实验结果表明,Mixup能够有效提高模型的泛化能力和分类精度,为图像识别领域的研究提供了有价值的参考。 ... [详细]
  • 在《Cocos2d-x学习笔记:基础概念解析与内存管理机制深入探讨》中,详细介绍了Cocos2d-x的基础概念,并深入分析了其内存管理机制。特别是针对Boost库引入的智能指针管理方法进行了详细的讲解,例如在处理鱼的运动过程中,可以通过编写自定义函数来动态计算角度变化,利用CallFunc回调机制实现高效的游戏逻辑控制。此外,文章还探讨了如何通过智能指针优化资源管理和避免内存泄漏,为开发者提供了实用的编程技巧和最佳实践。 ... [详细]
  • 本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog,包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]
  • 您的数据库配置是否安全?DBSAT工具助您一臂之力!
    本文探讨了Oracle提供的免费工具DBSAT,该工具能够有效协助用户检测和优化数据库配置的安全性。通过全面的分析和报告,DBSAT帮助用户识别潜在的安全漏洞,并提供针对性的改进建议,确保数据库系统的稳定性和安全性。 ... [详细]
  • 优化Vite 1.0至2.0升级过程中遇到的某些代码块过大问题解决方案
    本文详细探讨了在将项目从 Vite 1.0 升级到 2.0 的过程中,如何解决某些代码块过大的问题。通过具体的编码示例,文章提供了全面的解决方案,帮助开发者有效优化打包性能。 ... [详细]
  • 如何将TS文件转换为M3U8直播流:HLS与M3U8格式详解
    在视频传输领域,MP4虽然常见,但在直播场景中直接使用MP4格式存在诸多问题。例如,MP4文件的头部信息(如ftyp、moov)较大,导致初始加载时间较长,影响用户体验。相比之下,HLS(HTTP Live Streaming)协议及其M3U8格式更具优势。HLS通过将视频切分成多个小片段,并生成一个M3U8播放列表文件,实现低延迟和高稳定性。本文详细介绍了如何将TS文件转换为M3U8直播流,包括技术原理和具体操作步骤,帮助读者更好地理解和应用这一技术。 ... [详细]
  • 提升视觉效果:Unity3D中的HDR与Bloom技术(高动态范围成像与光线散射)
    提升视觉效果:Unity3D中的HDR与Bloom技术(高动态范围成像与光线散射) ... [详细]
  • V8不仅是一款著名的八缸发动机,广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来,作为Chromium项目的一部分,V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制,显著提升了JavaScript的执行效率,为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色,成为众多开发者和企业的首选。 ... [详细]
  • 卓盟科技:动态资源加载技术的兼容性优化与升级 | Android 开发者案例分享
    随着游戏内容日益复杂,资源加载过程已不仅仅是简单的进度显示,而是连接玩家与开发者的桥梁。玩家对快速加载的需求越来越高,这意味着开发者需要不断优化和提升动态资源加载技术的兼容性和性能。卓盟科技通过一系列的技术创新,不仅提高了加载速度,还确保了不同设备和系统的兼容性,为用户提供更加流畅的游戏体验。 ... [详细]
  • 【图像分类实战】利用DenseNet在PyTorch中实现秃头识别
    本文详细介绍了如何使用DenseNet模型在PyTorch框架下实现秃头识别。首先,文章概述了项目所需的库和全局参数设置。接着,对图像进行预处理并读取数据集。随后,构建并配置DenseNet模型,设置训练和验证流程。最后,通过测试阶段验证模型性能,并提供了完整的代码实现。本文不仅涵盖了技术细节,还提供了实用的操作指南,适合初学者和有经验的研究人员参考。 ... [详细]
  • 能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察
    本周科技前沿报道了多项重要进展,包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果,以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是,一款能够感知用户情绪状态的智能机器人即将问世,为未来的人机交互带来了全新的可能性。 ... [详细]
  • 从2019年AI顶级会议最佳论文,探索深度学习的理论根基与前沿进展 ... [详细]
  • Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性,但Python作为一种通用编程语言,适用于更广泛的领域,包括Web开发、自动化脚本和机器学习等。对于初学者而言,Python的学习曲线更为平缓,上手更加容易。此外,Python拥有庞大的社区支持和丰富的第三方库,使其在实际应用中更具灵活性和扩展性。 ... [详细]
  • 视觉图像的生成机制与英文术语解析
    近期,Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机(MLP)在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制,并解析了相关技术术语,为理解视觉图像生成提供了新的视角和方法。 ... [详细]
  • NVIDIA最新推出的Ampere架构标志着显卡技术的一次重大突破,不仅在性能上实现了显著提升,还在能效比方面进行了深度优化。该架构融合了创新设计与技术改进,为用户带来更加流畅的图形处理体验,同时降低了功耗,提升了计算效率。 ... [详细]
author-avatar
Angels萱萱
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有