《Rethinking Atrous Convolution for Semantic Image Segmentation》阅读笔记
z

显示的调整录波器的感受野的同时控制卷积后特征的分辨率

为了应对语义分割中的多尺度问题,提出了级联或者并联具有不同multiple atrous rate的atrous convolution的方式来抓取不同尺度的上下文信息。

增强了Atrous Spatial Pyramid Pooling模块,使得图像级别的特征能够被编码。

在语义分割领域主要有两个困难:

  • 由于连续的卷积操作,图像的特征表示的分辨率越来越小。而些密集预测任务需要细节的空间信息,这使得这些任务难以保证其精度
  • 目标物体的尺度复杂

捕获多尺度上下文的常用结构

上图所示的四种常用的结构来捕获多尺度上下文信息。

  • 对原始图片进行缩放成不同的尺寸,对其进行特征提取,将特征融合在一起。但是缩放的比例不一定很好,并且由于GPU显存的限制,一般用在推断阶段。

  • 编码器解码器,在编码的过程中对多尺度特征进行挖掘,空间维度和特征图逐步的别降低,因此,在网络的深层,long range information更容易获取,在解码过程中,从编码的特征中恢复细节的空间分辨率信息。

  • 在原始的网络最顶层加入一个模块,用于捕获大范围的信息。

  • 图像金字塔池化,具体可以参考博文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition , 简单来说是可以对任意尺寸的图片进行卷积操作,最终的到特征图像的特征是一致的。

Atrous Convolution for Dense Feature Extraction

考虑两个维度的信号,
$$
y[i] = \sum_k x[i + rk]w[k]
$$
输出信号$y$的每一个位置$i$, 滤波器$w$,atrous rate为$r$。 等价于对输入$x$ 进行上采样,同时在每个方向上的连续的滤波器值间插入$r-1$个0.

不同rate的filter示意图

作者提出了如下的结构: