VIP: Visual-guided Prompt Evolution for Efficient Dense Vision-Language Inference

📄 arXiv: 2605.12325v1 📥 PDF

作者: Hao Zhu, Shuo Jin, Wenbin Liao, Jiayu Xiao, Yan Zhu, Siyue Yu, Feng Dai

分类: cs.CV

发布日期: 2026-05-12

备注: Accepted by ICML2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出VIP:视觉引导的Prompt进化方法,高效实现密集视觉-语言推理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 视觉语言推理 Prompt进化 跨模态学习 空间感知 知识蒸馏 DINO

📋 核心要点

  1. CLIP的空间偏差限制了开放词汇语义分割的性能,现有方法难以兼顾效率与泛化性。
  2. VIP通过视觉引导的Prompt进化,增强dino.txt框架中文本查询的语义表达能力,提升细粒度对象感知。
  3. 实验表明,VIP在多个数据集上超越现有方法,平均mIoU提升显著,且具有良好的泛化能力。

📝 摘要(中文)

由于CLIP中固有的空间偏差,以高效且可泛化的方式实现免训练的开放词汇语义分割仍然具有挑战性。为了克服现有解决方案的局限性,本文超越了基于CLIP的范式,并利用最近具有空间感知能力的dino.txt框架,以促进更高效和高质量的密集预测。虽然dino.txt表现出强大的空间感知能力,但我们发现文本查询的语义模糊性导致其密集跨模态交互中出现严重的不匹配。为了解决这个问题,我们引入了视觉引导的Prompt进化(VIP)来纠正dino.txt中文本查询的语义表达能力,从而释放其用于细粒度对象感知的潜力。为此,VIP集成了别名扩展和视觉引导的蒸馏机制来挖掘有价值的语义线索,这些线索以显著性感知的方式稳健地聚合,从而产生高保真度的预测。大量的评估表明,VIP超越了领先的方法,平均mIoU提高了1.4%~8.4%,能够很好地泛化到各种具有挑战性的领域,并且只需要少量的推理时间和内存开销。我们的代码已在GitHub上公开。

🔬 方法详解

问题定义:论文旨在解决开放词汇语义分割中,由于CLIP模型固有的空间偏差和文本查询的语义模糊性,导致现有方法在效率、泛化性和分割精度上难以兼顾的问题。现有方法通常依赖于CLIP,但CLIP在处理密集预测任务时存在局限性,尤其是在跨模态交互中容易出现语义不匹配。

核心思路:论文的核心思路是利用具有空间感知能力的dino.txt框架,并通过视觉引导的Prompt进化(VIP)来增强文本查询的语义表达能力。VIP旨在纠正dino.txt中由于文本查询的语义模糊性而导致的跨模态交互不匹配问题,从而提升细粒度对象感知的性能。

技术框架:VIP方法主要包含以下几个阶段:首先,利用别名扩展来丰富文本查询的语义信息。然后,通过视觉引导的蒸馏机制,从视觉特征中提取有价值的语义线索。最后,以显著性感知的方式聚合这些语义线索,生成高保真度的分割预测。整体流程旨在利用视觉信息来增强文本查询的语义表达,从而提升分割精度。

关键创新:VIP的关键创新在于视觉引导的Prompt进化机制。与传统的基于CLIP的方法不同,VIP利用视觉信息来动态地调整文本查询,使其更好地与视觉特征对齐。这种视觉引导的Prompt进化能够有效地解决文本查询的语义模糊性问题,从而提升分割性能。

关键设计:VIP的关键设计包括:1) 别名扩展,用于丰富文本查询的语义信息;2) 视觉引导的蒸馏机制,用于从视觉特征中提取语义线索;3) 显著性感知的聚合方式,用于生成高保真度的分割预测。具体的损失函数和网络结构细节在论文中进行了详细描述,但摘要中未提供具体参数设置。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VIP方法在多个语义分割数据集上取得了显著的性能提升,平均mIoU超越了现有领先方法1.4%~8.4%。此外,VIP方法在具有挑战性的领域中表现出良好的泛化能力,并且只需要少量的推理时间和内存开销,具有很高的实用价值。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、医学图像分析等领域,提升机器对复杂场景的理解能力。通过开放词汇语义分割,可以实现对场景中任意物体的识别和分割,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

Pursuing training-free open-vocabulary semantic segmentation in an efficient and generalizable manner remains challenging due to the deep-seated spatial bias in CLIP. To overcome the limitations of existing solutions, this work moves beyond the CLIP-based paradigm and harnesses the recent spatially-aware dino.txt framework to facilitate more efficient and high-quality dense prediction. While dino.txt exhibits robust spatial awareness, we find that the semantic ambiguity of text queries gives rise to severe mismatch within its dense cross-modal interactions. To address this, we introduce \textcolor{oursblue}{\textbf{VI}}sual-guided \textcolor{oursblue}{\textbf{P}}rompt evolution (\textcolor{oursblue}{\textbf{\textit{VIP}}}) to rectify the semantic expressiveness of text queries in dino.txt, unleashing its potential for fine-grained object perception. Towards this end, \VIP integrates alias expansion with a visual-guided distillation mechanism to mine valuable semantic cues, which are robustly aggregated in a saliency-aware manner to yield a high-fidelity prediction. Extensive evaluations demonstrate that \VIP: \ding{182} surpasses the top-leading methods by $1.4\% \sim 8.4\%$ average mIoU, \ding{183} generalizes well to diverse challenging domains, and \ding{184} requires marginal inference time and memory overhead. \href{https://github.com/MiSsU-HH/VIP}{Our code is publicly available at GitHub \faGithub}.