空间金字塔池化:一种用于卷积神经网络(CNN)的特征汇聚方法,把同一张特征图按不同尺度的网格分块并分别池化(如 1×1、2×2、4×4),再拼接成固定长度的向量,从而让网络能处理不同尺寸的输入或获得多尺度信息。
/ˈspeɪʃəl ˈpɪrəmɪd ˈpuːlɪŋ/
Spatial pyramid pooling helps a CNN accept images of different sizes.
空间金字塔池化可以帮助卷积神经网络接收不同尺寸的图像。
By aggregating features at multiple spatial scales, spatial pyramid pooling often improves recognition accuracy while keeping the final feature vector length fixed.
通过在多个空间尺度上聚合特征,空间金字塔池化常常在保持最终特征向量长度固定的同时提升识别准确率。
该术语由三部分组成:spatial(空间的) + pyramid(金字塔) + pooling(池化/汇聚)。其中“pyramid”比喻分层、多尺度结构:从粗到细的网格划分像金字塔一样逐层展开;“pooling”指在每个网格内做最大池化或平均池化等汇聚操作。概念上也与计算机视觉中的“空间金字塔匹配(Spatial Pyramid Matching)”一脉相承。