• 书信范文
  • 文秘范文
  • 党团范文
  • 工作总结
  • 工作计划
  • 工作报告
  • 心得体会
  • 合同范文
  • 节日大全
  • 自我鉴定
  • 演讲稿
  • 汉字意思
  • 其他范文
  • 当前位置: 天一资源网 > 卷积 正文

    基于空洞卷积混联模块的图像超分辨率重建

    时间:2023-01-31 18:15:05 来源:天一资源网 本文已影响 天一资源网手机站

    宦 海 李鹏程 朱蓉蓉 陈逸飞

    (南京信息工程大学电子与信息工程学院 江苏 南京 210044)

    图像分辨率是一种性能参数,其作用主要是衡量图像在细节表现方面的能力以及其蕴含的信息量大小。图像分辨率多种多样,其含义也各不相同,有时间和空间分辨率等,这些分辨率都能对成像系统所拍出的图像在细节信息方面是否表现详细进行一个客观的评价。低分辨率图像所能包含的像素密度、清晰度、纹理细节信息都远远低于高分辨率图像。因此,高分辨率图像所包含的信息可信赖度会更高。致使提升图像分辨率也变得越来越重要,对拍照工具中的光学硬件进行改进提高,这是最直接的一种做法,但是其受限程度太大[1],比如:改进光学硬件制造工艺的难度巨大、制造高品质的光学硬件成本会极大地增加等。但是从软件编程和算法的角度来说,可以投入较少的成本并提高图像重建的效率。所以在图像处理领域当中,对算法软件的研究成为热点话题。

    图像超分辨率重建技术有两种,一种是从众多低分辨率图像中提取高价值信息并相互弥补信息缺漏从而合成一幅高分辨率图像;
    另外一种是从单幅低分辨率图像中提取信息并经过软件算法把丢失的高频信息恢复从而优化成一幅高分辨率图像[2]。本文主要讨论第二种重建方式。

    自从图像超分辨率重构技术被提出,便受到很多学者的关注,发展阶段[3]如下: “
    图像超分辨率” 的概念是20世纪中叶被Harris等第一次提出来的。但当时超分辨率重构只有理论并没有付诸实际研究;把理论付诸实践阶段进行发展是从1984年,Tsai等运用傅里叶变换域的方法对多幅低分辨率图像进行信息处理然后生成一幅具有高分辨率的图像,这是首次把对图像重建与软件技术相关联的思想付诸实践当中;
    Dong等[4]提出SRCNN(Super-resolution Convolutional Neural Network)结构,其最重大的贡献是在单幅图片超分辨率重构领域引入了深度学习,此创新使这一领域重新焕发新机,掀起研究新浪潮;
    Twitter的Shi等[5]提出了一种新的网络模型—ESPCN(Efficient Sub-Pixel Convolutional Neural Network),该模型最大的特点就是引入了亚像素卷积的概念,把像素进行了重新排列,从而达到对原始低分辨率图像的亚像素信息进行填充的目的,这一创新点最大的贡献在于能够对图像重构放大倍数进行灵活调整,这一策略具有深远意义;
    VDSR[6](Very Deep Super-Resolution)最大的特点就是层数很多并运用了大量的残差网络结构, 使得越深的网络层拥有更大的感受野,解决了之前网络结构比较深时无法训练的问题;

    ZSSR[7](ZeroShotSR)算法是第一篇采用无监督方式搭建的卷积神经网络超分辨率算法,能对非理想条件下的图像进行处理且计算量小无任何尺寸限制,可应用到任何比例的超分辨率任务;IDN[8]网络每一层有相对较少的滤波器数目执行速度快,并且使用了分组卷积等。

    1.1 ResNet残差块

    在深度学习领域中,网络越深发现拟合能力越强,但是当无限制地增加网络的深度的时候会出现梯度爆炸和过拟合的现象,所以ResNet[9]残差块(如图1所示)就是为了解决梯度爆炸[10]并增强特征传播能力而提出的一个新思路。

    残差函数的公式如下:

    y=F(x,Wi)+x

    (1)

    式中:x代表输入由shortcut传入高层;
    y代表输出;
    所学习的残差映射用函数F(x,Wi)表示。图1所示的ResNet残差块,有两个残差映射层,输入x经过第一个权重层(Weight Layer)输出F(W1x),然后经过激活函数ReLU作为第二个权重层的输入,第二个权重层输出F(W2σ(W1x)),所以此残差块的最终输出为y=F(W2σ(W1x))+x,其中σ为激活函数ReLU。

    因为第一层权重经过正则化很容易使输出变为F(x)=0,这样把包含两层权重层的残差块放在网络的中间层或靠后层,此操作对于之前输出的结果不会造成消极的影响,而且残差块中的隐藏单元可学到一些有用信息,会对输出造成积极影响,从而深层网络会获取浅层网络中比较重要的信息。

    1.2 空洞卷积

    空洞卷积[11]是在原卷积核中等间隔地添加0像素值,其实现的方式有两种:(1) 把0像素值直接填入到卷积核当中作为一个新的卷积核;
    (2) 间接在卷积核前输入等间隔的采样。标准卷积与空洞卷积最大的差别就是感受野的不同,但是输出形式相同。可概括为空洞卷积是等间隔添加0像素值的标准卷积,是标准卷积的特殊形式。

    在视觉任务处理的过程中,多尺度的信息是非常重要的,而多尺度信息依赖于感受野的不同,之前的网络比如SegNet[12]就是先卷积再池化就是为了增加感受野并减少计算量,但是这样先缩小再扩大的方式会使分辨率在空间上有所损失。为了满足这个过程并保证空间分辨率没有损失或降低损失,所以使用空洞卷积,即扩大了感受野而且参数不额外增加。为了对多尺度上下文的信息进行捕获,空洞卷积中有一个参数dilation-rate,设置不同的数值可以令感受野有所不同,即在卷积核中加入(dilation-rate-1)个0,如下以标准卷积3×3的卷积核为例展示。

    图2为空洞卷积原理图,不同的dilation-rate所对应的空洞卷积核的感受野不同,图2(a)为dilation-rate=1的3×3卷积核,其感受野和标准卷积一样为3×3;
    图2(b)为dilation-rate=2的3×3卷积核,其感受野为5×5;
    图2(c)为dilation-rate=5的3×3卷积核,其感受野为11×11。

    空洞卷积的感受野以及输出特征图分辨率大小的公式如下:

    R=(d-1)(k-1)+k

    (2)

    (3)

    式中:d表示空洞卷积参数dilation-rate;
    k表示标准卷积核的大小;
    R代表空洞卷积神经网络特征所能看到输入图像的区域即感受野;
    H表示经空洞卷积输出的特征图分辨率;
    h表示输入特征图的分辨率;
    p表示边缘填充尺寸;
    s为卷积操作中每次窗口移动的像素数。

    2.1 空洞卷积串联模块

    空洞卷积在没提高参数量的情况下提高了感受野,但是与此同时带来了一个比较严峻的问题:通过前面对空洞卷积原理的介绍可知,空洞卷积对输入特征图上的像素点是离散采样的,那么这样就可能会出现有的像素点没有被采样到从而导致部分像素点丢失造成权重矩阵不连续的情况,因此在无规则堆叠空洞卷积的情况下会对信息的连续性造成损失,即gridding(网格)效应。为保证结构中卷积核的连续性,避免出现gridding问题,应满足混合空洞卷积框架设计原则(Hybrid Dilated Convolution, HDC)[13]。本文在每个空洞卷积前面加不同尺寸的标准传统卷积,然后把空洞卷积的输出送到BN(Batch Normalization)层至ReLU激活后与残差连接相加构成空洞卷积串联模块如图3所示。

    空洞卷积串联模块工作原理如图4所示,深色块表示该位置的像素值是否被空洞卷积核放入计算当中,可以发现输入的特征图经过dilation-rate=5、dilation-rate=2、dilation-rate=1的3×3空洞卷积后特征图上的每一个像素点都被利用到了,满足HDC原则,可以有效地纠正经过空洞卷积权重矩阵信息不连续的缺点,去除网格效应。空洞卷积前加标准卷积是为了提高中心采样点的重要性,模仿人眼视觉皮层神经元工作特性,改善重建图像视觉效果。

    2.2 空洞卷积并联模块

    图5为空洞卷积并联模块,其过程为:输入特征图从多路出发,经尺寸为dilation-rate的标准传统卷积核、BN层与激活层输送到空洞率为dilation-rate的空洞卷积中,再把不同dilation-rate的空洞卷积输出逐级叠加后经Concat模块与残差连接相加。此处的叠加方法与普通空洞卷积叠加方法还是有所区别的,逐级叠加的设计和在每个空洞卷积的前一层加上与dilation-rate大小相同的标准传统卷积的设计,一方面是为了使不同感受野相融合来捕捉多尺度信息,另一方面同空洞卷积串联模块相似也是为了提高采样中心点的重要性,模仿人眼视觉皮层神经元工作特性,改善重建图像的视觉效果。

    2.3 空洞卷积混联模块

    图6所示为本文网络的主体结构,由图3空洞卷积串联模块和图5空洞卷积并联模块以及结合残差思想构成的空洞卷积混联模块(DCM模块)。首先利用空洞卷积并联模块把不同dilation-rate空洞卷积的输出逐层相加,其作用就是把不同的感受野相叠加捕捉多尺度信息,并利用多尺寸标准卷积提高重建视觉效果;
    然后利用空洞卷积串联模块有效地纠正经过空洞卷积权重矩阵信息不连续的缺点,消除空洞卷积网格效应,并再次使用多尺寸标准卷积提高重建视觉效果;
    最后利用残差的shortcut连接把低层的信息直接传递到高层,解决网络退化问题,使前后信息的传播更加顺畅。

    本文模型以91幅图像作为训练集,网络的损失函数loss为均方误差(Mean Square Error,MSE),优化器选作ADAM,最开始的学习率设为1×10-5,每次输入128幅17×17的图像块进行训练。训练实验中使用的服务器为taitanX,编程语言用的是Python3.6版本,框架是TensorFlow1.14.0版本,以Set5、Set14、BSD500数据集作为验证集。

    3.1 评价指标

    本文用了两种方式对构建的超分辨重建模型进行评估,并对这两种评价标准的优缺点进行细致的介绍。第一种为PSNR[14]( Peak Signal to Noise Ratio),峰值信噪比,是最为常用的评价标准;
    第二种是SSIM(Structural Similarity) ,结构相似,其与人类视觉评判最为接近。

    峰值信噪比PSNR对单幅超分辨率重建后的图像的评价是使用比较广泛和常见的,以MSE为损失函数,MSE是原始图像和解码后图像之间差异的度量, 即原始图像和解码后图像的均方误差。PSNR与损失函数MSE紧紧挂钩,所以训练的时候就可以大致地评价出模型的好坏,其公式为:

    (4)

    (5)

    式中:MAXI表示图像颜色的最大数值;
    I表示无压缩无失真的原始图像和;
    K表示经过重建模型得到的高清图像,两幅图像的大小皆为H×W的单色图像。PSNR的值与重建效果成正比。

    但是有时候会出现PSNR的值较大,其视觉效果却很差的现象[15],因此引用SSIM。

    结构相似性SSIM[16]可以抵消MSE无法衡量图像结构相似性的缺陷,与人类视觉相似。为了得到输入与输出的相似性,需要输入两幅图像到SSIM中,第一幅是无压缩无失真的原始图像X,第二幅图像就是经过重建模型得到的高清图像Y。因为人眼对图像中最为敏感的部分就是结构信息,所以为了模仿人眼判别重建图像的质量,可以把结构信息作为评价标准之一。单从局部角度结构信息S(x,y)上考虑,照明条件以及图像对比度对于图像的结构信息影响甚微,所以计算结构信息的时候,不考虑图像亮度信息L(x,y)和对比度信息C(x,y),又因为亮度信息用数学方法表示为图像所有像素点的均值(μi为i图像所有像素的平均值),图像的对比度信息用数学方法表示为图像像素点的标准差(σi代表i图像像素值的标准差),所以结构信息S(x,y)需要去掉图像像素点的平均值和归一化像素点的方差,仅用像素点的相关系数表示即可。但是若考虑全面,从实际出发,亮度和对比度对图像质量的好坏也会造成影响。综上所述,判定重建图像质量时既要考虑结构信息也需要考虑后两者的影响,即结构相似性SSIM为式(9)所示,SSIM值与重建图像的质量呈正相关,其最大值为1。

    (6)

    (7)

    (8)

    SSIM(x,y)=[L(x,y)α]·[C(x,y)β]·[S(x,y)γ]

    (9)

    设定α=β=γ=1,且为了增加计算结果的稳定性即防止分母为0,所以取c2=9、c1=2、c3=(0.03L)2,其中L为像素的最大值[17],彩色图像设L=255,所以式(9)可以简化为:

    (10)

    3.2 实验结果与分析

    设置卷积层数l=3,fi代表卷积核,ni代表通道数,[f1=5,n1=64],[f2=3,n2=32],[f3=3,n3=c_dim×scale×scale]。c_dim表示颜色维度,本文中c_dim=3代表图像为RGB色彩空间。Scale代表超分辨率重建图像的扩大因子,本文设置Scale=3,所以f3的通道数n3为c_dim×scale×scale=27。

    所有的空洞卷积组合模块在图7网络模型中有三个位置可供选择,如图7所示的①、②、③,下面对这三个位置进行实验论证分析,对比结果选出最佳位置。因为f1、f2、f3三个卷积核所用的padding=‘SAME’,因此经过卷积核f1、f2、f3输出的图像块大小是一致的,但是通道数却是不一样的,f1通道数n1是64,f2通道数n2是32,f3通道数n3是27,为了遵从常规实验卷积核通道数依次递减的特点,那么放在①处的空洞卷积通道数为64,②处的空洞卷积通道数为32,③处的空洞卷积通道数为27。因为通道数的大小会对实验速度造成很大的影响,①处的空洞卷积通道数是②处的空洞卷积通道数的两倍,所以实验计算速度会大打折扣,因此在比较①和②两个位置时,排除①选择②。

    ②处的空洞卷积通道数与③处的空洞卷积通道数相差仅为5,速度相差不会太大,因此,实验主要对比这两位置对图像重建效果质量的影响,为了研究不同结构对图像重建效果的影响,大胆假设所有的空洞卷积组合模块分别在图7的②与③位置的六种结构,并将所有结构绘制如图8所示。结构一与结构四是加入空洞卷积串联模块,结构二与结构五是加入空洞卷积并联模块,结构三与结构六是加入空洞卷积混联模块,每组内部差别在于模块放置的位置不同,在放大比例为3时,比较各结构的图像重建效果。

    从表1中可知,结构六的图像重建质量与其他五个结构相比,在Set14和BSD100数据集上效果最好。在数据集Set5上结构三模型的图像重建质量最好,但是结构三与结构六模型重建效果相差较小。又因为结构六模型的空洞卷积通道数27要小于结构三模型的空洞卷积通道数32,所以在综合考虑运行速度之后最终选择结构六模型作为最佳高效图像超分辨率重建模型,如图9所示。

    表1 所有结构重建效果对比结果

    为了说明本文提出的图9模型对于图像超分辨率重建的效果有积极的作用,模型在放大倍数为3的情况下以数据集Set5、Set14、BSD100作为验证,用PSNR和SSIM作为评价标准,与双3次差值 (Bicubic)、SRCNN[4]、ESPCN[5]、VDSR[6]、ZSSR[7]、IDN[8]算法进行实验结果对比,如表2所示。

    表2 本文算法与其他SR网络在基础数据集上的重建效果对比

    选择一个传统超分辨率方法Bicubic和五个基于深度学习的超分辨算法与本文方法在重建效果上进行比较,从表2可以看出在数据集Set5、Set14和BSD100上,本文设计的DCM方法在PSNR和SSIM的评价分数上都高于其他六种算法。至于在视觉效果方面比较,本文仅选择显示Bicubic、SRCNN、ESPCN和基于DCM方法的超分辨率重建图像。根据图10、图11、图12分别展示的视觉效果发现:本文的高效单幅图像超分辨率重建模型与双三次插值法(Bicubic)和SRCNN相比,在视觉效果上大大提高,可以看出高效重建模型重建出来的图像在细节纹理方面处理得更为柔滑,表现得更为突出;
    与ESPCN算法相比虽然在视觉效果无法区分太明显,但是根据表2可知PSNR和SSIM的评分数有所提高。至于最新几种算法在视觉效果方面与DCM方法相比,人眼无法区分其差异,此处就不再显示视觉效果。

    本文通过对引进空洞卷积可能造成的消极影响进行分析,并提出一种通过加入空洞卷积混联模块来消除空洞卷积的Gridding效应从而仅保留空洞卷积提高感受野和能够捕捉多尺度信息的积极作用,以此来提升超分辨率重建效果。使改进后的高效模型在Set5、Set14、BSD100数据集上进行检测,结果显示,以PSNR和SSIM为评价标准,本文设计带有空洞卷积混联模块的模型拥有比传统算法Bicubic和基于深度学习的SRCNN、ESPCN、VDSR、ZSSR、IDN算法更好的重建效果,与部分算法相比在视觉效果上面也有很大提高。

    猜你喜欢 视觉效果空洞残差 基于残差-注意力和LSTM的心律失常心拍分类方法研究成都信息工程大学学报(2022年2期)2022-06-14基于双向GRU与残差拟合的车辆跟驰建模网络安全与数据管理(2022年3期)2022-05-23番茄出现空洞果的原因及防治措施今日农业(2021年11期)2021-11-27基于残差学习的自适应无人机目标跟踪算法北京航空航天大学学报(2020年10期)2020-11-14如何避免想象作文空洞无“精神”学生天地(2020年18期)2020-08-25基于深度卷积的残差三生网络研究与应用北京航空航天大学学报(2019年9期)2019-10-26空洞的眼神故事作文·高年级(2017年2期)2017-03-01商业插图中民族文化符号的视觉效果探究剑南文学(2016年14期)2016-08-22昆腾高性能存储助力动画与视觉效果工作流办公自动化(2016年18期)2016-08-20论《云南日报》改版改革后的版面设计及其视觉效果西南学林(2013年1期)2013-11-22 相关关键词: 卷积神经网络模型 卷积
    相关热词搜索: 卷积 重建 空洞

    • 范文大全
    • 教案下载
    • 优秀作文
    • 励志
    • 课件
    • 散文
    • 名人名言