Interpretable Open-Vocabulary Referring Object Detection with Reverse Contrast Attention
作者: Drandreb Earl O. Juanico, Rowel O. Atienza, Jeffrey Kenneth Go
分类: cs.CV, cs.AI
发布日期: 2025-07-26 (更新: 2025-07-30)
备注: To be published in the ICCVW 2025 Proceedings
🔗 代码/项目: GITHUB
💡 一句话要点
提出反向对比注意力RCA,提升开放词汇指代目标检测性能
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇指代目标检测 视觉-语言Transformer 注意力机制 反向对比注意力 目标定位
📋 核心要点
- 现有视觉-语言Transformer在目标定位方面存在不足,语义信息较弱的tokens难以有效引导预测。
- RCA通过抑制极端注意力值并放大中间层激活,使语义相关的tokens在预测中发挥更大作用。
- 实验表明,RCA在多个VLM上显著提升了开放词汇指代目标检测的性能,最高提升达26.6%。
📝 摘要(中文)
本文提出反向对比注意力(RCA),一种即插即用的方法,无需重新训练即可增强视觉-语言Transformer中的目标定位能力。RCA通过抑制极端值并放大中间层激活来重新加权最终层的注意力,从而使语义相关但较弱的tokens引导预测。我们在开放词汇指代目标检测(OV-RefOD)上评估了RCA,并引入了FitAP,一种基于IoU和框面积的无置信度平均精度指标。RCA在15个开源VLM中的11个上提高了FitAP,增益高达+26.6%。有效性与注意力锐度和融合时间有关;虽然晚期融合模型始终受益,但像DeepSeek-VL2这样的模型也得到了改进,这表明容量和解耦是关键因素。RCA为多模态Transformer提供了可解释性和性能提升。
🔬 方法详解
问题定义:开放词汇指代目标检测(OV-RefOD)旨在根据给定的自然语言描述,在图像中定位并识别目标对象。现有视觉-语言Transformer模型在处理该任务时,存在目标定位不准确的问题,尤其是在语言描述较为复杂或目标对象与背景相似时。现有方法往往依赖于强烈的注意力激活,忽略了语义信息较弱但可能对定位有帮助的tokens。
核心思路:本文的核心思路是提出反向对比注意力(RCA)机制,通过重新加权Transformer最后一层的注意力权重,来增强模型对语义相关tokens的关注。RCA抑制了注意力权重中的极端值(过高或过低),并放大了中间范围的激活值,从而使那些语义相关但通常被忽略的tokens能够更好地引导目标定位。这种方法旨在平衡不同tokens的重要性,避免模型过度依赖少数几个强激活的tokens。
技术框架:RCA是一个即插即用的模块,可以添加到现有的视觉-语言Transformer模型的最后一层。具体流程如下:首先,获取Transformer最后一层的注意力权重矩阵。然后,使用RCA机制对该矩阵进行重新加权,抑制极端值并放大中间值。最后,使用重新加权后的注意力权重进行目标定位预测。整个过程不需要重新训练模型,因此可以方便地应用于各种现有的VLM模型。
关键创新:RCA的关键创新在于其反向对比的注意力加权方式。与传统的注意力机制不同,RCA不是简单地选择具有最高注意力的tokens,而是通过抑制极端值并放大中间值来平衡不同tokens的重要性。这种方法能够更好地利用语义信息,提高目标定位的准确性。此外,FitAP指标的提出也解决了传统AP指标对置信度敏感的问题。
关键设计:RCA的具体实现包括以下几个关键步骤:1) 计算注意力权重的均值和标准差。2) 使用均值和标准差对注意力权重进行标准化。3) 使用一个阈值来抑制标准化后的注意力权重中的极端值。4) 对剩余的注意力权重进行放大,以增强其对目标定位的贡献。阈值的选择是一个关键参数,需要根据具体的任务和数据集进行调整。此外,论文还提出了FitAP指标,该指标基于IoU和框面积,不依赖于置信度,更适合评估OV-RefOD任务的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RCA在15个开源VLM中的11个上提高了FitAP指标,最高提升达+26.6%。尤其是在晚期融合模型上,RCA表现出稳定的性能提升。此外,RCA在DeepSeek-VL2等模型上的改进表明,模型的容量和解耦能力也是影响RCA效果的关键因素。FitAP指标的引入为OV-RefOD任务的评估提供了一种更可靠的替代方案。
🎯 应用场景
该研究成果可广泛应用于智能安防、自动驾驶、图像搜索、机器人导航等领域。例如,在智能安防中,可以通过自然语言描述快速定位监控画面中的特定目标;在自动驾驶中,可以根据语音指令识别并跟踪行人或车辆;在机器人导航中,可以根据指令引导机器人到达指定位置。RCA的即插即用特性使其易于集成到现有系统中,具有很高的实际应用价值。
📄 摘要(原文)
We propose Reverse Contrast Attention (RCA), a plug-in method that enhances object localization in vision-language transformers without retraining. RCA reweights final-layer attention by suppressing extremes and amplifying mid-level activations to let semantically relevant but subdued tokens guide predictions. We evaluate it on Open Vocabulary Referring Object Detection (OV-RefOD), introducing FitAP, a confidence-free average precision metric based on IoU and box area. RCA improves FitAP in 11 out of 15 open-source VLMs, with gains up to $+26.6\%$. Effectiveness aligns with attention sharpness and fusion timing; while late-fusion models benefit consistently, models like $\texttt{DeepSeek-VL2}$ also improve, pointing to capacity and disentanglement as key factors. RCA offers both interpretability and performance gains for multimodal transformers. Codes and dataset are available from https://github.com/earl-juanico/rca