Interpretable Open-Vocabulary Referring Object Detection with Reverse Contrast Attention

作者: Drandreb Earl O. Juanico, Rowel O. Atienza, Jeffrey Kenneth Go

分类: cs.CV, cs.AI

发布日期: 2025-07-26 (更新: 2025-07-30)

备注: To be published in the ICCVW 2025 Proceedings

🔗 代码/项目: GITHUB

💡 一句话要点

提出反向对比注意力RCA，提升开放词汇指代目标检测性能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇指代目标检测 视觉-语言Transformer 注意力机制 反向对比注意力 目标定位

📋 核心要点

现有视觉-语言Transformer在目标定位方面存在不足，语义信息较弱的tokens难以有效引导预测。
RCA通过抑制极端注意力值并放大中间层激活，使语义相关的tokens在预测中发挥更大作用。
实验表明，RCA在多个VLM上显著提升了开放词汇指代目标检测的性能，最高提升达26.6%。

📝 摘要（中文）

本文提出反向对比注意力（RCA），一种即插即用的方法，无需重新训练即可增强视觉-语言Transformer中的目标定位能力。RCA通过抑制极端值并放大中间层激活来重新加权最终层的注意力，从而使语义相关但较弱的tokens引导预测。我们在开放词汇指代目标检测（OV-RefOD）上评估了RCA，并引入了FitAP，一种基于IoU和框面积的无置信度平均精度指标。RCA在15个开源VLM中的11个上提高了FitAP，增益高达+26.6%。有效性与注意力锐度和融合时间有关；虽然晚期融合模型始终受益，但像DeepSeek-VL2这样的模型也得到了改进，这表明容量和解耦是关键因素。RCA为多模态Transformer提供了可解释性和性能提升。

🔬 方法详解

问题定义：开放词汇指代目标检测（OV-RefOD）旨在根据给定的自然语言描述，在图像中定位并识别目标对象。现有视觉-语言Transformer模型在处理该任务时，存在目标定位不准确的问题，尤其是在语言描述较为复杂或目标对象与背景相似时。现有方法往往依赖于强烈的注意力激活，忽略了语义信息较弱但可能对定位有帮助的tokens。

核心思路：本文的核心思路是提出反向对比注意力（RCA）机制，通过重新加权Transformer最后一层的注意力权重，来增强模型对语义相关tokens的关注。RCA抑制了注意力权重中的极端值（过高或过低），并放大了中间范围的激活值，从而使那些语义相关但通常被忽略的tokens能够更好地引导目标定位。这种方法旨在平衡不同tokens的重要性，避免模型过度依赖少数几个强激活的tokens。

技术框架：RCA是一个即插即用的模块，可以添加到现有的视觉-语言Transformer模型的最后一层。具体流程如下：首先，获取Transformer最后一层的注意力权重矩阵。然后，使用RCA机制对该矩阵进行重新加权，抑制极端值并放大中间值。最后，使用重新加权后的注意力权重进行目标定位预测。整个过程不需要重新训练模型，因此可以方便地应用于各种现有的VLM模型。

关键创新：RCA的关键创新在于其反向对比的注意力加权方式。与传统的注意力机制不同，RCA不是简单地选择具有最高注意力的tokens，而是通过抑制极端值并放大中间值来平衡不同tokens的重要性。这种方法能够更好地利用语义信息，提高目标定位的准确性。此外，FitAP指标的提出也解决了传统AP指标对置信度敏感的问题。

关键设计：RCA的具体实现包括以下几个关键步骤：1) 计算注意力权重的均值和标准差。2) 使用均值和标准差对注意力权重进行标准化。3) 使用一个阈值来抑制标准化后的注意力权重中的极端值。4) 对剩余的注意力权重进行放大，以增强其对目标定位的贡献。阈值的选择是一个关键参数，需要根据具体的任务和数据集进行调整。此外，论文还提出了FitAP指标，该指标基于IoU和框面积，不依赖于置信度，更适合评估OV-RefOD任务的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RCA在15个开源VLM中的11个上提高了FitAP指标，最高提升达+26.6%。尤其是在晚期融合模型上，RCA表现出稳定的性能提升。此外，RCA在DeepSeek-VL2等模型上的改进表明，模型的容量和解耦能力也是影响RCA效果的关键因素。FitAP指标的引入为OV-RefOD任务的评估提供了一种更可靠的替代方案。

🎯 应用场景

该研究成果可广泛应用于智能安防、自动驾驶、图像搜索、机器人导航等领域。例如，在智能安防中，可以通过自然语言描述快速定位监控画面中的特定目标；在自动驾驶中，可以根据语音指令识别并跟踪行人或车辆；在机器人导航中，可以根据指令引导机器人到达指定位置。RCA的即插即用特性使其易于集成到现有系统中，具有很高的实际应用价值。

📄 摘要（原文）

We propose Reverse Contrast Attention (RCA), a plug-in method that enhances object localization in vision-language transformers without retraining. RCA reweights final-layer attention by suppressing extremes and amplifying mid-level activations to let semantically relevant but subdued tokens guide predictions. We evaluate it on Open Vocabulary Referring Object Detection (OV-RefOD), introducing FitAP, a confidence-free average precision metric based on IoU and box area. RCA improves FitAP in 11 out of 15 open-source VLMs, with gains up to $+26.6\%$. Effectiveness aligns with attention sharpness and fusion timing; while late-fusion models benefit consistently, models like $\texttt{DeepSeek-VL2}$ also improve, pointing to capacity and disentanglement as key factors. RCA offers both interpretability and performance gains for multimodal transformers. Codes and dataset are available from https://github.com/earl-juanico/rca

Interpretable Open-Vocabulary Referring Object Detection with Reverse Contrast Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理