《Rethinking Atrous Convolution for Semantic Image Segmentation》阅读笔记

显示的调整录波器的感受野的同时控制卷积后特征的分辨率

为了应对语义分割中的多尺度问题，提出了级联或者并联具有不同multiple atrous rate的atrous convolution的方式来抓取不同尺度的上下文信息。

增强了Atrous Spatial Pyramid Pooling模块，使得图像级别的特征能够被编码。

在语义分割领域主要有两个困难：

捕获多尺度上下文的常用结构

上图所示的四种常用的结构来捕获多尺度上下文信息。

对原始图片进行缩放成不同的尺寸，对其进行特征提取，将特征融合在一起。但是缩放的比例不一定很好，并且由于GPU显存的限制，一般用在推断阶段。
编码器解码器，在编码的过程中对多尺度特征进行挖掘，空间维度和特征图逐步的别降低，因此，在网络的深层，long range information更容易获取，在解码过程中，从编码的特征中恢复细节的空间分辨率信息。
在原始的网络最顶层加入一个模块，用于捕获大范围的信息。
图像金字塔池化，具体可以参考博文：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition , 简单来说是可以对任意尺寸的图片进行卷积操作，最终的到特征图像的特征是一致的。

考虑两个维度的信号，
$$
y[i] = \sum_k x[i + rk]w[k]
$$
输出信号$y$的每一个位置$i$, 滤波器$w$，atrous rate为$r$。等价于对输入$x$ 进行上采样，同时在每个方向上的连续的滤波器值间插入$r-1$个0.

不同rate的filter示意图

作者提出了如下的结构：