视觉检测中如何处理多尺度目标

在视觉检测中处理多尺度目标，主要采用两大类方法：图像金字塔和特征金字塔。

1. 图像金字塔：

方法描述：图像金字塔的核心在于将图像降采样到不同的尺度，然后分别进行后续的处理。传统的图像处理/目标检测方法以及早期的深度学习方法多使用图像金字塔处理多尺度问题。

应用实例：经典的基于简单矩形特征（Haar）+级联Adaboost与Hog特征+SVM的DPM目标识别框架，以及早期的CNN目标识别框架，均采用图像金字塔的方式处理多尺度目标。

优缺点：虽然这种方法简单且效果良好，但对不同尺度的图像分别进行CNN提取特征会造成较长的耗时和较大的内存消耗。

2. 特征金字塔：

方法描述：特征金字塔网络（FPN）是特征金字塔方法中的代表，它通过将不同层的优势结合，使得每一层相比原来都有更丰富的语义特征和分辨率信息。

多尺度特征融合：特征金字塔方法还包括多尺度特征融合，如并行的多分支结构（如Inception基本模块、ASPP等）和串行的多尺度结构，这些结构通过在不同尺度上提取特征并进行融合，提高算法对尺度变化的适应性。

还有一些其他方法，如尺度不变特征变换（SIFT）等算法，能够提取尺度不变的特征点，以应对尺度变化。以及SNIP（多尺度训练的改进版本），它只对size在指定范围内的目标回传损失，从而减少domain-shift带来的影响，提高多尺度目标检测的效果。

视觉检测中处理多尺度目标的方法多种多样，可以根据具体的应用场景和需求选择合适的方法。

视觉检测中如何处理多尺度目标