作者:mobiledu2502924121 | 来源:互联网 | 2023-08-01 10:04
KangL,KumarJ,YeP,etal.ConvolutionalNeuralNetworksforDocumentImageClassification文章目录1.介绍2.相
Kang L, Kumar J, Ye P, et al. Convolutional Neural Networks for Document Image Classification
文章目录 1. 介绍 2. 相关工作 3. CNN for NR-IQA 3.1 网络结构 3.2 Local Normalization局部标准化 3.3 Pooling池化 3.4 ReLU 激活函数 3.5 Learning 4 实验
1. 介绍 将图像块作为输入,CNN在空间域中工作,而不使用大多数先前方法所采用的手工计算的特征。视觉质量是图像的非常复杂但固有的特征。在CNN常用的图像识别领域提取的是局部不变性特征,而IQA领域需要提取NSS特征。所以直接将CNN网络用于IQA是不行的,作者文中提到的一个贡献 是修改了网络结构,以便更有效地学习图像质量特征并更准确地估计图像质量。论文的另一个贡献 是提出了一个新的框架,允许学习和预测局部区域的图像质量。作者的方法是可以估计分块(32*32)的质量,局部质量估计对于图像去噪或重建,图像增强等问题很重要。
2. 相关工作 3. CNN for NR-IQA 首先将灰度图,进行对比度标准化,然后不重叠的将图片分块,然后使用CNN预测每一块的质量分数,然后平均每一块的得分得到整张图片的质量分数。
3.1 网络结构 网络包括5层:网络的结构图如下
32x32 --> 26x26x50 --> 2x50 --> 800 --> 800 --> 1 第一层是一个卷积层,使用50个卷积核为7x7的滤波器,no zero-padding , stride = 1。 第二层是池化层,将50个特征图池化为一个最大值和一个最小值。2x50 然后是两个全连接层每个有800个节点 最后一层是简单的线性回归得到我们的预测结果
3.2 Local Normalization局部标准化 在 BRISQUE 和 CORNIA 中,都用到了对比度标准化(contrast normalization) 在本文中作者使用了局部对比度标准化
P,Q是标准化的窗口大小,因为我们用的是局部的对比度标准化,在 BRISQUE 中作者提出局部对比度标准化的窗口应该设置的小一些,这样会取得更好的效果。在本文中我们设置 P = Q = 3 ,注意到应用局部对比度标准化,每个像素可以具有不同的局部均值和方差。
在使用CNN的图像识别领域,对比度标准化(contrast normalization)经常用于整幅图片。归一化不仅缓解了使用sigmod 神经元的早期工作中常见的饱和问题,而且使网络对光照和对比度变化具有鲁棒性。另外,尽管在某些应用中亮度和对比度变化可以被认为是失真,但我们主要关注由图像劣化引起的失真,例如模糊,压缩和加性噪声。
3.3 Pooling池化 具体来说,每个特征映射汇集成一个最大值和一个最小值,这与CORNIA类似。仅仅使用max-pooling的效果就已经很好,这里使用min提升了2% 的性能。这里对整个特征图提2个max和min是因为:作者认为失真通常是局部均一的,也就是说同一水平的失真会在整个块(32x32)中呈现。在图像失真中缺乏明显的全局空间结构使得能够在不保持位置的情况下进行合并以降低计算成本。
3.4 ReLU 激活函数 在两个全连接层之间使用Rectified Linear Units(ReLU)激活函数来增加非线性。作者提出因为ReLU仅允许非负的信号通过,所以我们在卷积层和池化层使用线性神经元。原因是最小池化通常产生负值,我们不希望阻止这些负池化输出中的信息。
3.5 Learning 我们用原图像的质量分数作为每一块的质量分数,因为我们认为失真是均一的。在测试阶段,我们对每一块的预测分数取平均值作为整幅图的质量分数。通过把块(32x32)作为网络的输入,和将整幅图作为输入相比大大增加了我们的训练样本。 损失函数: 在实验中,使用带动量的随机梯度下降算法(SGD, 40 epochs),在验证集上调整参数使得得到最高的线性相关系数 (LCC) 在第二个全连接层使用dropout = 0.5
4 实验
作者直观地检查了学习的卷积内核,发现只有少数内核呈现出与失真类型相关的明显结构。毫无疑问,CNN学习的内核往往是嘈杂的模式,而不是呈现与某些失真类型相关的强结构如CORNIA,是因为CORNIA的特征学习是无人监督的,属于生成模型,而我们的CNN受到监督训练并学习辨别特征。
This is because CORNIA’s feature learning is unsupervised and belongs to generative model while our CNN is supervisedly trained and learns discriminative features.