一文详解各种卷积操作

文章导读

卷积是深度学习中的重要组成部分，在日常搭建神经网络的过程中我们会遇到各种类型的卷积操作，有2D卷积，3D卷积，分组卷积等等形式。本文针对各种卷积的工作原理、特性和应用进行详细的介绍。

普通卷积
3D卷积
扩张卷积
分组卷积
转置卷积
可分离卷积
可变形卷积

普通卷积

在信号处理领域，卷积是两个变量（其中一个变量经过翻转、位移）在某范围内相乘后求和的结果。

深度学习中卷积的概念与之相似（只是深度学习的卷积在运算过程中的滤波器不经过翻转），卷积核以一定的步长在输入图片上滑动，每一步都将对应元素相乘后求和的过程，如下图所示：

（1）卷积核大小：卷积核大小定义了卷积的视图。根据卷积核的大小，常见的卷积尺寸有1×1卷积、3×3 卷积、5×5卷积、7×7卷积等。

1×1卷积：通常用于输出维度的升维或降维。若特征图是尺寸是H x W x D，卷积核尺寸是1 x 1x D，输出通道尺寸是H x W x 1。当我们将N次1×1卷积结果连接在一起时，可以得到H x W x N的输出，从而实现升维或降维的功能；

3×3卷积：由于大尺寸的卷积核的参数量较大，研究人员发现两个3×3卷积的堆叠，感受野等同于一个5×5卷积，但是参数量却减少了。所以从VGG的时代开始，基本后面的网络都离不开它的身影。

5×5卷积：卷积核越大，感受野越大，看到的图片信息越多，所获得的全局特征越好。但是这样参数很多，会导致计算量暴增，层次少不利于模型深度的增加，表达能力弱。所以我们会看到在早期的网络会出现大卷积核的堆叠，或者当下研究人员一般将大尺寸卷积放在对输入图片的初始操作处（7×7同理）。

（2）步长：卷积核的步长定义了卷积核在图像中移动的每一步的大小，代表提取的精度，通常为 1。也可以用大于等于2的步长，对图像进行下采样，替代池化操作。

（3）填充：卷积核与输入图像的尺寸不匹配，这时就需要填充图像。例如输入图片尺寸为5*5，卷积核的大小为3*3，如果不进行填充，步长为1的话，当卷积核沿着图片滑动后只能滑动出一个3*3的图片出来，卷积后的图片越变越小，且输入图片边缘像素只被计算过一次，而中间像素会被卷积计算多次，意味着丢失图像角落信息。所以为了避免这种情况，需要先对原始图片做边界填充处理。

3D卷积

3D卷积的卷积核可以在输入图像的3个方向，即图像的高度，宽度，深度上移动。并与二维卷积类似，在每个位置各元素先相乘再相加，最后输出一个3D数据，如下图所示：

卷积特性：相比于普通的二维卷积，多了一个维度（深度），可以把这个深度当作视频中的连续帧，或者是立体图像中的不同的切片。但是其参数量较大，会延缓网络的推理速度。

应用场景：3D卷积常应用在视频分类、医学影像、点云处理等领域。比如经典的VoxelNet网络就采用3D CNN提取点云的体素特征做目标检测任务。

扩张卷积

扩张卷积通常用于图像分割、语音识别、文本分析等领域。它是将标准的卷积核进行扩张，来增加模型的感受野。扩张卷积比一般卷积操作，多了一个参数扩张率（卷积核的点的间隔数量）。如下图所示：

（a）是3*3的普通卷积核，也可以看成扩张率d=1的扩张卷积，感受野为3*3；

（b）是扩张率d=2的扩张卷积，感受野为7*7；

（c）是扩张率d=4的扩张卷积，感受野为15*15；

扩张的好处：使得在相同的计算成本下，避免因池化损失信息而增大了感受野。

存在的问题：因为卷积核存在间隔，所以不是所有的输入都参与计算，特别是当叠加的卷积层所用的扩张率相同的时候，特征图上会表现出一种卷积中心点的不连续性。如下图所示：

三个扩张率都为2的扩张卷积层连续卷积后得到的结果，蓝色的标识是参与计算的卷积中心，而颜色的深浅表示次数的多少。因为3次卷积的扩张率是相同的，所以卷积的计算中心会呈现出一种网格状向外扩展，即会出现不连续的情况。

解决的方法：可以采用混合扩张卷积的方法，即不连续使用相同扩张率的扩展卷积，而且扩张率也不能成倍数增加。所以最好将连续的扩张卷积的扩张率设置为“锯齿状”，比如分别是[1，2，3]，那么卷积中心的分布就不会再有不连续的情况。

分组卷积

分组卷积就是要对输入特征图进行分组，将输入特征图深度Din分成g组(图中g=2)，则每组输入特征图的尺寸为 Hin × Win × (Din / g) 。对应的卷积核为(Dout / g)个大小为h × w × (Din / g)，所以每组输出特征图尺寸为Hout × Wout × (Dout / g)。对g组的结果进行拼接，得到最终的输出特征图尺寸Hout × Wout × Dout。如下图所示：