SteerSeg: Attention Steering for Reasoning Video Segmentation
作者: Ali Cheraghian, Hamidreza Dastmalchi, Abdelwahed Khamis, Morteza Saberi, Aijun An, Lars Petersson
分类: cs.CV
发布日期: 2026-05-14
备注: Project page: https://steerseg.github.io
💡 一句话要点
SteerSeg:通过注意力引导实现视频分割推理,提升LVLM空间定位能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频分割 视觉语言模型 注意力机制 空间定位 思维链 软提示 视频推理
📋 核心要点
- 现有基于LVLM的视频分割方法依赖注意力图作为空间先验,但LVLM的注意力图并非为空间定位优化,导致grounding信号模糊。
- SteerSeg通过可学习的软提示和思维链(CoT)提示,在输入层面引导LVLM的注意力,使其更关注目标对象,从而改善空间定位。
- SteerSeg在Ref-YouTube-VOS上训练,并在多个数据集上验证了其泛化能力,实验结果表明其能显著提升LVLM的空间grounding能力。
📝 摘要(中文)
视频推理分割需要根据自然语言表达式在视频帧中定位对象,这通常涉及空间推理和隐式引用。现有方法利用冻结的大型视觉-语言模型(LVLM),提取注意力图并将其用作分割的空间先验,从而实现免训练的 grounding。然而,这些注意力图针对文本生成进行了优化,而非空间定位,导致 grounding 信号分散且模糊。本文提出了 SteerSeg,一个轻量级框架,它将注意力错位识别为基于注意力的 grounding 的关键瓶颈,并通过输入级条件反射来引导注意力。SteerSeg 结合了可学习的软提示和推理引导的思维链(CoT)提示。软提示重塑注意力分布以产生更集中的空间图,而 CoT 导出的属性通过引导注意力朝向正确的实例来解决相似对象之间的歧义。生成的注意力图被转换为关键帧中的点提示,以指导分割模型,同时使用基于相关的评分对候选轨迹进行排序和选择。我们的方法冻结了 LVLM 和分割模型参数,仅学习一小组软提示,保留了模型的预训练推理能力,同时显着提高了 grounding 性能。尽管仅在 Ref-YouTube-VOS 上训练,但 SteerSeg 在各种基准测试中表现出良好的泛化能力,显着提高了 LVLM 的空间 grounding 能力。
🔬 方法详解
问题定义:论文旨在解决视频分割推理中,现有方法利用大型视觉-语言模型(LVLM)提取的注意力图进行空间定位时,由于注意力图并非针对空间定位优化,导致定位不准确的问题。现有方法的痛点在于LVLM的注意力机制主要服务于文本生成,而非精确的空间区域定位。
核心思路:论文的核心思路是通过在输入端引导LVLM的注意力,使其更关注与目标对象相关的区域。具体来说,通过引入可学习的软提示(soft prompts)来调整LVLM的输入,从而改变其注意力分布,使其更加集中和精确。同时,利用思维链(Chain-of-Thought, CoT)提示来解决相似对象之间的歧义,引导注意力关注正确的实例。
技术框架:SteerSeg框架主要包含以下几个模块:1) 软提示生成模块:生成可学习的软提示,用于调整LVLM的输入;2) LVLM推理模块:利用LVLM提取注意力图,并结合CoT提示进行推理;3) 分割模块:将注意力图转换为点提示,用于指导分割模型进行分割;4) 轨迹选择模块:使用基于相关的评分对候选轨迹进行排序和选择。整个框架冻结了LVLM和分割模型的参数,只训练软提示。
关键创新:SteerSeg的关键创新在于通过输入级的注意力引导,改善了LVLM在视频分割推理中的空间定位能力。与现有方法直接使用LVLM的注意力图作为空间先验不同,SteerSeg通过可学习的软提示和CoT提示,主动调整LVLM的注意力分布,使其更符合空间定位的需求。
关键设计:软提示是可学习的向量,添加到LVLM的输入文本中,通过反向传播优化,以改变LVLM的注意力分布。CoT提示用于生成目标对象的属性描述,例如颜色、形状等,用于区分相似对象。分割模型可以使用现有的点提示分割模型,例如PointRend。轨迹选择模块使用基于相关的评分函数,评估候选轨迹与目标对象的匹配程度。
🖼️ 关键图片
📊 实验亮点
SteerSeg在多个视频分割基准测试中取得了显著的性能提升。例如,在Ref-YouTube-VOS数据集上,SteerSeg相较于基线方法取得了显著的性能提升,证明了其在空间 grounding 方面的有效性。此外,SteerSeg在其他数据集上也表现出良好的泛化能力,表明其具有较强的鲁棒性。
🎯 应用场景
SteerSeg 技术可应用于智能视频监控、自动驾驶、视频编辑、人机交互等领域。例如,在智能视频监控中,可以根据自然语言描述快速定位和分割视频中的目标对象。在自动驾驶中,可以帮助车辆理解周围环境,识别交通标志和行人。该技术具有广泛的应用前景,并有望推动视频理解和人工智能的发展。
📄 摘要(原文)
Video reasoning segmentation requires localizing objects across video frames from natural language expressions, often involving spatial reasoning and implicit references. Recent approaches leverage frozen large vision-language models (LVLMs) by extracting attention maps and using them as spatial priors for segmentation, enabling training-free grounding. However, these attention maps are optimized for text generation rather than spatial localization, often resulting in diffuse and ambiguous grounding signals. In this work, we introduce SteerSeg, a lightweight framework that identifies attention misalignment as the key bottleneck in attention-based grounding and proposes to steer attention at its source through input-level conditioning. SteerSeg combines learnable soft prompts with reasoning-guided Chain-of-Thought (CoT) prompting. The soft prompts reshape the attention distribution to produce more spatially concentrated maps, while CoT-derived attributes resolve ambiguity among similar objects by guiding attention toward the correct instance. The resulting attention maps are converted into point prompts across keyframes to guide a segmentation model, while candidate tracklets are ranked and selected using correlation-based scoring. Our approach freezes the LVLM and segmentation model parameters and learns only a small set of soft prompts, preserving the model's pretrained reasoning capabilities while significantly improving grounding. Despite being trained only on Ref-YouTube-VOS, SteerSeg generalizes well across diverse benchmarks, significantly improving the spatial grounding capability of LVLMs. Project page: https://steerseg.github.io