分享

一文详解各种卷积操作

 mynotebook 2022-09-10 发布于湖南

重磅干货,第一时间送达

图片

文章导读

卷积是深度学习中的重要组成部分,在日常搭建神经网络的过程中我们会遇到各种类型的卷积操作,有2D卷积,3D卷积,分组卷积等等形式。本文针对各种卷积的工作原理、特性和应用进行详细的介绍。

目录

  • 普通卷积

  • 3D卷积

  • 扩张卷积

  • 分组卷积

  • 转置卷积

  • 可分离卷积

  • 可变形卷积

普通卷积

在信号处理领域,卷积是两个变量(其中一个变量经过翻转、位移)在某范围内相乘后求和的结果。

图片

深度学习中卷积的概念与之相似(只是深度学习的卷积在运算过程中的滤波器不经过翻转),卷积核以一定的步长在输入图片上滑动,每一步都将对应元素相乘后求和的过程,如下图所示:

图片

(1)卷积核大小:卷积核大小定义了卷积的视图。根据卷积核的大小,常见的卷积尺寸有1×1卷积、3×3 卷积、5×5卷积、7×7卷积等。

1×1卷积:通常用于输出维度的升维或降维。若特征图是尺寸是H x W x D,卷积核尺寸是1 x 1x D,输出通道尺寸是H x W x 1。当我们将N次1x1卷积结果连接在一起时,可以得到H x W x N的输出,从而实现升维或降维的功能;

3×3卷积:由于大尺寸的卷积核的参数量较大,研究人员发现两个3×3卷积的堆叠,感受野等同于一个5×5卷积,但是参数量却减少了。所以从VGG的时代开始,基本后面的网络都离不开它的身影。

5×5卷积:卷积核越大,感受野越大,看到的图片信息越多,所获得的全局特征越好。但是这样参数很多,会导致计算量暴增,层次少不利于模型深度的增加,表达能力弱。所以我们会看到在早期的网络会出现大卷积核的堆叠,或者当下研究人员一般将大尺寸卷积放在对输入图片的初始操作处(7×7同理)。

(2)步长:卷积核的步长定义了卷积核在图像中移动的每一步的大小,代表提取的精度,通常为 1。也可以用大于等于2的步长,对图像进行下采样,替代池化操作。

(3)填充:卷积核与输入图像的尺寸不匹配,这时就需要填充图像。例如输入图片尺寸为5*5,卷积核的大小为3*3,如果不进行填充,步长为1的话,当卷积核沿着图片滑动后只能滑动出一个3*3的图片出来,卷积后的图片越变越小,且输入图片边缘像素只被计算过一次,而中间像素会被卷积计算多次,意味着丢失图像角落信息。所以为了避免这种情况,需要先对原始图片做边界填充处理。

3D卷积

3D卷积的卷积核可以在输入图像的3个方向,即图像的高度,宽度,深度上移动。并与二维卷积类似,在每个位置各元素先相乘再相加,最后输出一个3D数据,如下图所示:

图片

卷积特性:相比于普通的二维卷积,多了一个维度(深度),可以把这个深度当作视频中的连续帧,或者是立体图像中的不同的切片。但是其参数量较大,会延缓网络的推理速度。

应用场景:3D卷积常应用在视频分类、医学影像、点云处理等领域。比如经典的VoxelNet网络就采用3D CNN提取点云的体素特征做目标检测任务。

扩张卷积

扩张卷积通常用于图像分割、语音识别、文本分析等领域。它是将标准的卷积核进行扩张,来增加模型的感受野。扩张卷积比一般卷积操作,多了一个参数扩张率(卷积核的点的间隔数量)。如下图所示:

图片

(a)是3*3的普通卷积核,也可以看成扩张率d=1的扩张卷积,感受野为3*3;

(b)是扩张率d=2的扩张卷积,感受野为7*7;

(c)是扩张率d=4的扩张卷积,感受野为15*15;

扩张的好处:使得在相同的计算成本下,避免因池化损失信息而增大了感受野。

存在的问题:因为卷积核存在间隔,所以不是所有的输入都参与计算,特别是当叠加的卷积层所用的扩张率相同的时候,特征图上会表现出一种卷积中心点的不连续性。如下图所示:

图片

三个扩张率都为2的扩张卷积层连续卷积后得到的结果,蓝色的标识是参与计算的卷积中心,而颜色的深浅表示次数的多少。因为3次卷积的扩张率是相同的,所以卷积的计算中心会呈现出一种网格状向外扩展,即会出现不连续的情况。

解决的方法:可以采用混合扩张卷积的方法,即不连续使用相同扩张率的扩展卷积,而且扩张率也不能成倍数增加。所以最好将连续的扩张卷积的扩张率设置为“锯齿状”,比如分别是[1,2,3],那么卷积中心的分布就不会再有不连续的情况。

图片
分组卷积

分组卷积就是要对输入特征图进行分组,将输入特征图深度Din分成g组(图中g=2),则每组输入特征图的尺寸为 Hin × Win × (Din / g) 。对应的卷积核为(Dout / g)个大小为h × w × (Din / g),所以每组输出特征图尺寸为Hout × Wout × (Dout / g)。对g组的结果进行拼接,得到最终的输出特征图尺寸Hout × Wout × Dout。如下图所示:

图片

卷积的特性:分组卷积最早是为了解决显存不够的问题,将网络分布在两张显卡上训练,能够减少训练参数,不容易出现过拟合。

后来出现在shuffleNet等轻量化的网络中用于减少网络参数,提高在ARM等嵌入式部署神经网络时的运算速度。

转置卷积

在神经网络中,我们经常需要上采样来提高低分辨率图片的分辨率。而转置卷积就可以作为一种通过卷积学习参数,从而获得最优上采样的方法。

下图是一个4x4的输入矩阵,用3x3的卷积核进行没有填充,步长为1的卷积操作, 结果是一个2x2的矩阵。

图片

我们将3x3的卷积核重排为4x16的形式(下图第一项),同时将4x4的输入矩阵展开为16x1的列向量的形式(下图第二项)。通过矩阵乘法得到一个4x1的列向量,可以看出这个列向量正是由上图的2x2卷积输出矩阵展开得到的。也就是说,我们可以将卷积操作写成矩阵乘法运算。

图片

通过这样的操作,可以把16(4x4的矩阵)个值映射为4(2x2的矩阵)个值. 那么将这个操作反过来,我们就可以把4(2x2的矩阵)个值映射为16(4x4的矩阵)。

图片

最后将输出矩阵可以重排为 4x4的形式。

卷积特征:虽然转置卷积能够通过学习参数进行最优的上采样,但是实际应用中,研究人员往往更加倾向于使用线性插值的方式做上采样,效率更高。

可分离卷积

1. 空间可分离卷积

空间可分离卷积主要处理图像和卷积核的空间维度:宽度和高度。它将一个卷积核划分为两个较小的卷积核。如将3x3的卷积核分为3x1和1x3的卷积核,再依次进行卷积。如此,则可以将一次卷积的9次乘法减少为两次卷积共6次乘法,减少计算量,从而加快网络运行速度。

图片

2. 深度可分离卷积

深度可分离卷积不仅涉及空间维度,还对深度维度进行处理。它主要分为两个过程,分别为逐通道卷积和逐点卷积。

●逐通道卷积

逐通道卷积的卷积核与通道是一一对应的,所以输出的特征图片的深度和输入的深度完全一样。

图片

●逐点卷积

逐点卷积的运算与常规卷积运算相似,它的卷积核的尺寸为1×1×M,M为上一层的深度。它是将上一步的特征图在深度方向上进行加权相加,生成新的特征图。有几个卷积核就有几层新的特征图输出。

图片

卷积特性:深度可分离卷积的优势在于需要提取的属性越多,就能够节省越多的参数,减少计算量。最早出现在mobilenet中,也是用于轻量化网络的特征提取部分,使嵌入式部署的神经网络推理更快速。

可变形卷积

可变形卷积是一种卷积核内部点按不规则的方式组合,如下图所示:

图片

(a) 普通卷积采样 的9 个点(绿点);

(b)(c)(d)都为可变形卷积,在普通卷积采样坐标上加上一个位移量(蓝色箭头),得到变形的采样位置(深蓝点)。

普通卷积输出特征图中每一个位置 P0:

图片

可变形卷积增加一个偏移量进行扩张,同样的位置P0变为:

图片

卷积特性:对于输入的一张特征图,把普通卷积的过程分成两路,先通过上面一路学习得到offset;下面的可变形卷积是基于上面生成的offset,我们的卷积窗口将由规整的绿色窗口变成蓝色部分,然后再执行普通的卷积。

如下图所示,左边普通卷积方法没有提取到完整绵羊的特征,而右边的可变形卷积方法提取到了完整的绵羊的特征:

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多