基于深度学习的图像增强综述(4)
【作者】网站采编
【关键词】
【摘要】这篇文章的网络结构如下: 主体框架是U-Net,可以利用不同分辨率下图像的feature map。在此基础上本文做出了两点改进,一是引入全局特征来减少视觉伪影
这篇文章的网络结构如下:
主体框架是U-Net,可以利用不同分辨率下图像的feature map。在此基础上本文做出了两点改进,一是引入全局特征来减少视觉伪影,二是使用range scaling layer代替residuals,也就是逐个元素相乘,而不是相加。作者通过实验发现这两点创新可以缓解增强后图像的视觉伪影。这里的全局特征向量可以看成是一个正则化器,用于惩罚会导致视觉伪影的低分辨率特征,且使用avgpooling来提取全局特征比使用全连接层所需要的参数量更少。Range scaling layer可以实现像素强度的逐像素缩放,相比于传统的residual-learning残差学习网络,本文提出的RSGUNet网络能力更强,它能学习到更精细、更复杂的低质量图像到高质量图像的映射关系。
Loss函数的设计包括L1 loss, MS-SSIM loss, VGG loss, GAN loss and total variation loss。
L1 loss可以获得色彩和亮度信息;MS-SSIM loss可以保留更多高频信息,有实验证明,这两个loss组合比L2 loss的效果要好。
VGG loss保证了增强后图像和目标图像特征表现的相似性,它是在预训练好的VGG计算多个层之间feature map欧式距离的均值得到的。
GAN loss可以近似两幅图像之间的感知距离,因此最小化GAN loss可以使得生成的图像更加真实。
TV loss可以有效抑制高频噪声。
总的loss为这些loss的加权和:
实验中用到的数据集是DPED中iPhone和Canon这个数据对,训练集为个100*100的patch,验证集为个patch,测试的时候用的是400张原图,作者对比了一些方法,结果如下:
可视化结果如下:
PRIM2018图像增强挑战赛的结果如下:
这篇论文也存在一些问题,它在大多数图像上表现较好,但少数增强后的图像比较黑或者模糊,原因可能是U-Net的下采样操作,但实验结果中没有发现伪影。总的来说,本文提出的结构在主观上和客观上都取得了较好的效果,且计算复杂度大大降低,适用于移动设备上的图像增强。这篇文章也给我们提供了一个新的研究方向,探索新的、轻量级的网络结构来实现实时的图像增强任务。
Fast Perceptual Image Enhancement
这篇文章跟上一篇一样,也是ECCV-PRIM2018年挑战赛的,在图像增强任务上获得第二名,它是在这边介绍的第一篇论文的模型作为baseline,在它的基础上改进了生成器模型,判别器模型和loss函数的设计都跟baseline一样,但其速度大大提升,因此可以适用于移动设备上。
来看一下baseline和这篇论文的生成器模型:
通过对比可以发现,block的数量从4变成了2,第一层和最后几层的通道数都大大减少,降低模型的复杂度。此外,为了进一步减少计算时间,还做了一个改进就是空间分辨率的减少,多出来的4*4*32和4*4*64其实是一个下采样(strided convolutional layers),每次卷积后feature map的大小就减半,在两个residual block后的两个卷积层相当于是两个上采样层(transposed convolution layers),将特征恢复到原始分辨率。在每个分辨率下,通过skip connection将相同分辨率的feature map学习一个残差,便于网络学习。作者对比了不同的卷积核大小、通道数及block数对模型性能与速度的影响,结果如下:
可以看到,本文提出的模型在不影响性能的情况下,实现了baseline近6.3倍的加速。虽然该模型由于上采样过程会引入轻微的棋盘伪影,但它是一个不损失图像质量的更快的模型,本文采用的数据集也是DPED,测试结果如下:
作者对不通道卷积核大小、通道数以及激活函数进行了实验,最终权衡了效果和速度,选择了第三行的参数作为网络结构。
可视化结果如下:
与baseline相比,本文的方法生成的图像在某些方面更加精细,在边缘处没有色彩伪影,且减少噪声,纹理更清晰。从整体上来说,这篇文章的创新的不是很大,在baseline基础上网络结构的没有特别大的改动,但它的计算速度明显提升,这就表明了基于卷积神经网络的图像增强已经可以产生适用于移动设备的高质量的结果。
Deep Networks for Image-to-Image Translation with Mux and Demux Layers
这篇论文是ECCV-PRIM2018年挑战赛图像增强任务的第三名,虽然结果没有之前两篇的好,但创新点比较大。第一,这篇论文提出了一种shuffle pixel的上采样和下采样层,分别称为Mux and Demux layers,可以直接在CNN中使用,和标准的池化操作相比,这种方式可以保持输入信息不丢失;第二,提出了一种的CNN结构,将Mux,Demux,DenseNet结合起来,在低分辨率下处理feature map,效率比较高;第三,本文在DPED方法基础上引入了一个加权的L1 loss和上下文损失,(contextual loss),为了验证,使用NIQE index来提高图像的感知质量。
文章来源:《中国体视学与图像分析》 网址: http://www.zgtsxytxfx.cn/zonghexinwen/2021/0519/627.html