NeurIPS 2023 | MQ-Det: 首个支持多模态查询的开放世界目标检测大模型-CSDN博客

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

目前的开放世界目标检测模型大多遵循文本查询的模式即利用类别文本描述在目标图像中查询潜在目标。然而这种方式往往会面临“广而不精”的问题。一图胜千言为此作者提出了基于多模态查询的目标检测MQ-Det以及首个同时支持文本描述和视觉示例查询的开放世界检测大模型。MQ-Det在已有基于文本查询的检测大模型基础上加入了视觉示例查询功能。通过引入即插即用的门控感知结构以及以视觉为条件的掩码语言预测训练机制使得检测器在保持高泛化性的同时支持细粒度的多模态查询为用户提供更灵活的选择来适应不同的场景。其简单有效的设计与现有主流的检测大模型均兼容适用范围非常广泛。实验表明多模态查询能够大幅度推动主流检测大模型的开放世界目标检测能力例如在基准检测数据集LVIS上无需下游任务模型微调提升主流检测大模型GLIP精度约7.8%AP在13个基准小样本下游任务上平均提高了6.3% AP。

1. MQ-Det多模态查询的开放世界目标检测大模型

论文名称Multi-modal Queried Object Detection in the Wild

论文链接https://arxiv.org/abs/2305.18980

代码地址https://github.com/YifanXu74/MQ-Det

1.1 从文本查询到多模态查询

一图胜千言随着图文预训练的兴起借助文本的开放语义目标检测逐渐步入了开放世界感知的阶段。为此许多检测大模型都遵循了文本查询的模式即利用类别文本描述在目标图像中查询潜在目标。然而这种方式往往会面临“广而不精”的问题。例如1图1中的细粒度物体鱼种检测往往很难用有限的文本来描述各种细粒度的鱼种2类别歧义“bat”既可指蝙蝠又可指拍子。然而以上的问题均可通过图像示例来解决相比文本图像能够提供目标物体更丰富的特征线索但同时文本又具备强大的泛化性。由此如何能够有机地结合两种查询方式成为了一个很自然地想法。

获取多模态查询能力的难点如何得到这样一个具备多模态查询的模型存在三个挑战1直接用有限的图像示例进行微调很容易造成灾难性遗忘2从头训练一个检测大模型会具备较好的泛化性但是消耗巨大例如单卡训练GLIP[1]需要利用3000万数据量训练480 天。

多模态查询目标检测基于以上考虑作者提出了一种简单有效的模型设计和训练策略——MQ-Det。MQ-Det在已有冻结的文本查询检测大模型基础上插入少量门控感知模块GCP来接收视觉示例的输入同时设计了视觉条件掩码语言预测训练策略高效地得到高性能多模态查询的检测器。

1.2 MQ-Det即插即用的多模态查询模型架构

图1 MQ-Det方法架构图

门控感知模块

如图1所示作者在已有冻结的文本查询检测大模型的文本编码器端逐层插入了门控感知模块GCPGCP的工作模式可以用下面公式简洁地表示

v¯i=X-MHA(vi,I),v^i=X-MHA(ti,v¯i),t^i=ti+σ(gate(v^i))⋅v^i,i=1,2,…,|C|

对于第 i 个类别输入视觉示例 vi 其首先和目标图像 I 进行交叉注意力 X-MHA 得到 v¯i 以增广其表示能力而后每个类别文本 ti 会和对应类别的视觉示例 v¯i 进行交叉注意力得到 v^i 之后通过一个门控模块 gate 将原始文本 ti 和视觉增广后文本 v^i 融合得到当前层的输出 t^i 。这样的简单设计遵循了三点原则1类别可扩展性2语义补全性3抗遗忘性具体讨论可见原文。

1.3 MQ-Det高效训练策略

基于冻结语言查询检测器的调制训练

由于目前文本查询的预训练检测大模型本身就具备较好的泛化性作者认为只需要在原先文本特征基础上用视觉细节进行轻微地调整即可。在文章中也有具体的实验论证发现打开原始预训练模型参数后进行微调很容易带来灾难性遗忘的问题反而失去了开放世界检测的能力。由此MQ-Det在冻结文本查询的预训练检测器基础上仅调制训练插入的GCP模块就可以高效地将视觉信息插入到现有文本查询的检测器中。在文章中作者分别将MQ-Det的结构设计和训练技术应用于目前的SOTA模型GLIP[1]和GroundingDINO[2]来验证方法的通用性。

以视觉为条件的掩码语言预测训练策略

作者还提出了一种视觉为条件的掩码语言预测训练策略来解决冻结预训练模型带来的学习惰性的问题。所谓学习惰性即指检测器在训练过程中倾向于保持原始文本查询的特征从而忽视新加入的视觉查询特征。为此MQ-Det在训练时随机地用[MASK] token来替代文本token迫使模型向视觉查询特征侧学习即

T={t1,t2,…,[MASK],…,t|C|}

这个策略虽然简单但是却十分有效从实验结果来看这个策略带来了显著的性能提升。

1.4 实验结果Finetuning-frree评估

Finetuning-free相比传统零样本zero-shot评估仅利用类别文本进行测试MQ-Det提出了一种更贴近实际的评估策略finetuning-free。其定义为在不进行任何下游微调的条件下用户可以利用类别文本、图像示例、或者两者结合来进行目标检测。

在finetuning-free的设定下MQ-Det对每个类别选用了5个视觉示例同时结合类别文本进行目标检测而现有的其他模型不支持视觉查询只能用纯文本描述进行目标检测。下表展示了在LVIS MiniVal和LVIS v1.0上的检测结果。可以发现多模态查询的引入大幅度提升了开放世界目标检测能力。

表1 各个检测模型在LVIS基准数据集下的finetuning-free表现

从表1可以看到MQ-GLIP-L在GLIP-L基础上提升了超过7%AP效果十分显著

1.5 实验结果Few-shot评估

表2 各个模型在35个检测任务ODinW-35以及其13个子集ODinW-13中的表现

作者还进一步在下游35个检测任务ODinW-35中进行了全面的实验。由表2可以看到MQ-Det除了强大的finetuning-free表现还具备良好的小样本检测能力进一步印证了多模态查询的潜力。图2也展示了MQ-Det对于GLIP的显著提升。

图2 数据利用效率对比横轴训练样本数量纵轴OdinW-13上的平均AP

1.6 多模态查询目标检测的前景

目标检测作为一个以实际应用为基础的研究领域非常注重算法的落地。尽管以往的纯文本查询目标检测模型展现出了良好的泛化性但是在实际的开放世界检测中文本很难涵盖细粒度的信息而图像中丰富的信息粒度完美地补全了这一环。至此我们能够发现文本泛而不精图像精而不泛如果能够有效地结合两者即多模态查询将会推动开放世界目标检测进一步向前迈进。MQ-Det在多模态查询上迈出了第一步尝试其显著的性能提升也昭示着多模态查询目标检测的巨大潜力。同时文本描述和视觉示例的引入为用户提供了更多的选择使得目标检测更加灵活和用户友好。

阿里云国内75折 回扣 微信号:monov8
阿里云国际,腾讯云国际,低至75折。AWS 93折 免费开户实名账号 代冲值 优惠多多 微信号:monov8 飞机:@monov6

“NeurIPS 2023 | MQ-Det: 首个支持多模态查询的开放世界目标检测大模型-CSDN博客” 的相关文章