Reward-Guided Semantic Evolution for Test-time Adaptive Object Detection
作者: Lihua Zhou, Mao Ye, Xiatian Zhu, Nianxin Li, Changyi Ma, Shuaifeng Li, Yitong Qin, Hongbin Liu, Jiebo Luo, Zhen Lei
分类: cs.CV
发布日期: 2026-05-06
💡 一句话要点
提出奖励引导语义演化(RGSE),解决测试时自适应目标检测中的语义不对齐问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇目标检测 测试时自适应 视觉-语言模型 语义对齐 奖励引导
📋 核心要点
- 基于VLM的目标检测在测试时面临分布偏移,导致文本和视觉嵌入语义不对齐,性能下降。
- RGSE通过演化搜索直接优化文本嵌入,利用视觉信息作为奖励,无需训练即可实现语义对齐。
- RGSE在多个目标检测基准上取得了领先性能,且计算开销小,具有实际应用价值。
📝 摘要(中文)
本文提出了一种名为奖励引导语义演化(RGSE)的免训练框架,用于解决基于视觉-语言模型(VLM)的开放词汇目标检测在测试时面临分布偏移导致的性能下降问题。该问题主要源于文本嵌入和区域建议的视觉嵌入之间的语义不对齐。RGSE将文本嵌入的自适应视为一个语义搜索过程,通过扰动文本嵌入生成候选变体,并利用当前和历史高置信度视觉建议的余弦相似度作为奖励信号来评估它们,最后通过奖励加权平均将它们融合为精炼的嵌入。RGSE无需反向传播,在多个检测基准上实现了最先进的性能,同时计算开销极小。代码将在发表后开源。
🔬 方法详解
问题定义:论文旨在解决开放词汇目标检测任务中,基于视觉-语言模型(VLM)的方法在测试时遇到数据分布偏移时性能显著下降的问题。现有方法要么依赖于计算成本高的反向传播进行微调,要么通过外部记忆绕过语义不对齐问题,但都未能直接且高效地在测试时对齐文本和视觉嵌入。
核心思路:RGSE的核心思路是将文本嵌入的自适应过程视为一个语义搜索问题。通过模拟进化搜索的过程,不断生成文本嵌入的候选变体,并利用视觉信息(即高置信度的视觉区域建议)作为奖励信号来评估这些变体。最终,选择表现最好的变体并将其融合到原始文本嵌入中,从而实现文本嵌入的优化。这种方法的核心在于利用视觉信息来引导文本嵌入的演化,使其更好地适应当前测试环境。
技术框架:RGSE框架主要包含以下几个步骤:1) 初始化:使用预训练的VLM模型提取文本和视觉嵌入。2) 扰动:对文本嵌入进行扰动,生成多个候选变体。3) 评估:计算每个候选变体与当前和历史高置信度视觉区域建议之间的余弦相似度,作为奖励信号。4) 融合:根据奖励信号对候选变体进行加权平均,得到精炼的文本嵌入。5) 迭代:重复步骤2-4,直到达到预定的迭代次数或满足收敛条件。
关键创新:RGSE的关键创新在于提出了一种免训练的文本嵌入自适应方法,该方法直接在测试时优化文本嵌入,而无需任何反向传播或额外的训练数据。通过将文本嵌入的自适应过程视为一个语义搜索问题,并利用视觉信息作为奖励信号,RGSE能够有效地对齐文本和视觉嵌入,从而提高目标检测的性能。与现有方法相比,RGSE更加高效、灵活,并且易于部署。
关键设计:RGSE的关键设计包括:1) 扰动策略:采用高斯噪声对文本嵌入进行扰动,生成候选变体。2) 奖励函数:使用余弦相似度作为奖励函数,衡量候选变体与视觉区域建议之间的语义相似度。3) 融合策略:使用奖励加权平均的方式将候选变体融合到原始文本嵌入中。4) 历史视觉建议:利用历史高置信度视觉建议来稳定奖励信号,避免过度拟合当前批次的数据。
🖼️ 关键图片
📊 实验亮点
RGSE在多个目标检测基准上取得了显著的性能提升。例如,在COCO数据集上,RGSE相比于基线方法Grounding DINO,在测试时自适应场景下取得了明显的AP提升。此外,RGSE在计算开销方面也表现出色,无需反向传播,仅需少量计算即可实现文本嵌入的优化。
🎯 应用场景
RGSE可应用于各种需要开放词汇目标检测的场景,例如自动驾驶、智能监控、机器人导航等。该方法能够有效提升模型在复杂、多变环境下的检测性能,降低对大量标注数据的依赖,具有重要的实际应用价值。未来,RGSE可以进一步扩展到其他视觉-语言任务中,例如图像描述、视觉问答等。
📄 摘要(原文)
Open-vocabulary object detection with vision-language models (VLMs) such as Grounding DINO suffers from performance degradation under test-time distribution shifts, primarily due to semantic misalignment between text embeddings and shifted visual embeddings of region proposals. While recent test-time adaptive object detection methods for VLM-based either rely on costly backpropagation or bypass semantic misalignment via external memory, none directly and efficiently align text and vision in a training-free manner. To address this, we propose Reward-Guided Semantic Evolution (RGSE), a training-free framework that directly refines the text embeddings at test time. Inspired by evolutionary search, RGSE treats text embedding adaptation as a semantic search process: it perturbs text embeddings as candidate variants, evaluates them via cosine similarity with current and historical high-confidence visual proposals as a reward signal, and fuses them into a refined embedding through reward-weighted averaging. Without any backpropagation, RGSE achieves state-of-the-art performance across multiple detection benchmarks while adding minimal computational overhead. Our code will be open source upon publication.