《Rethinking Atrous Convolution for Semantic Image Segmentation》阅读笔记

显示的调整录波器的感受野的同时控制卷积后特征的分辨率
为了应对语义分割中的多尺度问题,提出了级联或者并联具有不同multiple atrous rate的atrous convolution的方式来抓取不同尺度的上下文信息。
增强了Atrous Spatial Pyramid Pooling模块,使得图像级别的特征能够被编码。
在语义分割领域主要有两个困难:
- 由于连续的卷积操作,图像的特征表示的分辨率越来越小。而些密集预测任务需要细节的空间信息,这使得这些任务难以保证其精度
- 目标物体的尺度复杂
上图所示的四种常用的结构来捕获多尺度上下文信息。
对原始图片进行缩放成不同的尺寸,对其进行特征提取,将特征融合在一起。但是缩放的比例不一定很好,并且由于GPU显存的限制,一般用在推断阶段。
编码器解码器,在编码的过程中对多尺度特征进行挖掘,空间维度和特征图逐步的别降低,因此,在网络的深层,long range information更容易获取,在解码过程中,从编码的特征中恢复细节的空间分辨率信息。
在原始的网络最顶层加入一个模块,用于捕获大范围的信息。
图像金字塔池化,具体可以参考博文:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition , 简单来说是可以对任意尺寸的图片进行卷积操作,最终的到特征图像的特征是一致的。
Atrous Convolution for Dense Feature Extraction
考虑两个维度的信号,
$$
y[i] = \sum_k x[i + rk]w[k]
$$
输出信号$y$的每一个位置$i$, 滤波器$w$,atrous rate为$r$。 等价于对输入$x$ 进行上采样,同时在每个方向上的连续的滤波器值间插入$r-1$个0.
作者提出了如下的结构: