Centralized Feature Pyramid for Object Detection解读-CSDN博客

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

Centralized Feature Pyramid for Object Detection

问题

主流的特征金字塔集中于层间特征交互而忽略了层内特征规则。尽管一些方法试图在注意力机制或视觉变换器的帮助下学习紧凑的层内特征表示但它们忽略了对密集预测任务非常重要的被忽略的角点区域。

核心思想

提出了一种基于全局显式集中式特征规则的中心化特征金字塔CFP对象检测方法

  • 空间显式视觉中心策略其中使用轻量级MLP来捕捉全局长距离依赖关系并使用并行可学习视觉中心机制来捕捉输入图像的局部角区域
  • 以自上而下的方式对常用特征金字塔提出了一种全局集中的规则其中使用从最深层内特征获得的显式视觉中心信息来调整正面浅层特征。

方法

Centralized Feature PyramidCFP

作者提出的CFP不仅能够捕获全局长距离依赖关系而且能够实现全面和差异化的特征表示

具体的流程如下

  1. 将输入图像馈送到骨干网络以提取五层的特征金字塔X其中特征X i _{i} ii=01234的每一层的空间大小分别为输入图像的1/21/41/81/161/32。
  2. 特征金字塔的顶层即X4使用了一个EVC结构提出了一种lightweight MLP架构来捕获X 4 _{4} 4全局长距离依赖关系(与基于多头注意机制的transformer encoder相比轻量级MLP架构不仅结构简单而且体积更轻计算效率更高)一个可学习的视觉中心机制与轻量级MLP一起用于聚集输入图像的local corner regions。基于所提出的ECV为了使特征金字塔的浅层特征能够同时以高效模式从最深特征的视觉集中信息中受益其中从最深的层内特征获得的显式视觉中心信息用于同时调节所有的前浅特征使用GCR调节X3和X2。
  3. 这些特征聚合到一个解耦的头部网络中进行分类和回归。
    在这里插入图片描述

Explicit Visual Center (EVC)

EVC主要由两个并行连接的块组成lightweight MLP 和 LVC。这两个块的结果特征图沿着信道维度连接在一起作为用于下游识别的EVC的输出。在X4和EVC之间Stem块用于特征平滑而不是直接在原始特征图上实现。Stem块由输出通道大小为256的7×7卷积组成随后是批量标准化层和激活功能层。
在这里插入图片描述

Lightweight MLP

本文提出的轻量级 MLP 由两个残差模块组成基于深度可分离卷积的模块增加特征的表示能力并减少计算量和基于通道MLP的模块。其中MLP 模块的输入是深度可分离卷积模块的输出。这两个模块都经过了通道缩放和 DropPath 操作以提高特征泛化和鲁棒性。与空间 MLP 相比通道 MLP 不仅可以有效地降低计算复杂度还可以满足通用视觉任务的要求。

空间 MLP 相比通道 MLP 不仅可以有效地降低计算复杂度还可以满足通用视觉任务的要求。最后两个模块都实现了通道缩放、DropPath 和残差连接操作。

Learnable Visual Center (LVC)

LVC 是一个具有内在字典的编码器由一个固有的码本Bb1b2…bK其中NH×W是输入特征的总空间数其中H和W分别表示特征图的高度和宽度的空间大小和一组可学习的视觉中心比例因子S{s1s2…sK}组成。

LVC 的处理过程包括两个主要步骤

  1. 使用一组卷积层对输入特征进行编码并使用 CBR 块进行进一步处理

  2. 将编码后的特征通过一组可学习的比例因子与固有码本相结合。

  3. 为此我们使用一组比例因子s按照顺序地使xi和bk映射相应的位置信息。整个图像中关于第k个码字的信息可以通过以下方式计算可以看成一个softmax的值当作权重因子
    在这里插入图片描述

    其中xi是第i个像素点bk是第k个可学习的视觉码字sk是第k种比例因子也是设置的可学习的参数。 xi− bk是关于相对于码字的每个像素位置的信息。K是视觉中心的总数。

之后使用一个完全连接层和一个 1×1 卷积层来预测突出的关键类特征。最后将来自 Stem 块 X i n _{in} in的输入特征和比例因子系数的局部角区域特征进行通道乘法通道加法

Global Centralized Regulation (GCR)

因为EVC计算的是特征层内部的关系对每个层计算EVC是一笔不小的开销所以作者使用全局集中特征规范 Global Centralized Regulation (GCR) 在整个特征金字塔上实现跨层特征规范化。

实现将深层特征上采样到与低层特征相同的空间尺度然后沿通道维度进行拼接将拼接后的特征通过 1×1 卷积降采样到 256 个通道。

实验结果

在这里插入图片描述

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6