SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs
作者: Mohamad Alansari, Naufal Suryanto, Divya Velayudhan, Sajid Javed, Naoufel Werghi, Muzammal Naseer
分类: cs.CV, cs.AI
发布日期: 2026-03-12
备注: Accepted at CVPR 2026; Project page: https://risys-lab.github.io/SPARROW; Repository: https://github.com/RISys-Lab/SPARROW
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
SPARROW:像素级视频MLLM,学习空间精确性和时间参照一致性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频多模态大语言模型 像素级定位 时间参照一致性 目标跟踪 视觉问答
📋 核心要点
- 现有视频MLLM在像素级定位时,缺乏时间上下文,导致空间漂移和身份切换等问题。
- SPARROW通过目标特定跟踪特征(TSF)和双提示设计,融合了几何先验和语义定位,提升了时间一致性。
- 实验表明,SPARROW在多个基准测试中显著提升了参照稳定性、空间精度和时间连贯性。
📝 摘要(中文)
多模态大型语言模型(MLLM)已经从图像级推理发展到像素级定位,但将这些能力扩展到视频仍然具有挑战性,因为模型必须实现空间精确性和时间一致的参照跟踪。现有的视频MLLM通常依赖于静态分割token([SEG])进行逐帧定位,这提供了语义信息,但缺乏时间上下文,导致空间漂移、身份切换以及对象移动或重新出现时的不稳定初始化。我们提出了SPARROW,一种像素级视频MLLM,它通过两个关键组件统一了空间精度和时间稳定性:(i)目标特定跟踪特征(TSF),在训练期间注入时间对齐的参照线索;(ii)双提示设计,解码框([BOX])和分割([SEG])token,以融合几何先验和语义定位。SPARROW由一个包含30,646个视频和45,231个问答对的精选参照视频数据集支持,并通过一个基于类无关SAM2的提议器进行端到端操作,无需外部检测器。SPARROW集成到三个最新的开源视频MLLM(UniPixel、GLUS和VideoGLaMM)中,在六个基准测试中提供了持续的提升,在RVOS上提高了高达+8.9 J&F,在视觉定位上提高了+5 mIoU,在GCG上提高了+5.4 CLAIR。这些结果表明,SPARROW显著提高了像素级视频理解中的参照稳定性、空间精度和时间连贯性。
🔬 方法详解
问题定义:现有视频多模态大语言模型在进行像素级别的视觉定位时,主要依赖于逐帧的静态分割token。这种方法忽略了视频中的时间信息,导致模型在处理运动物体或物体重新出现时,出现空间漂移、身份切换等问题,无法保证时间参照的一致性。
核心思路:SPARROW的核心思路是通过引入时间对齐的参照线索,并结合几何先验和语义信息,来提升视频MLLM在像素级别定位时的空间精确性和时间参照一致性。具体来说,它通过目标特定跟踪特征(TSF)来注入时间信息,并通过双提示设计来融合框和分割信息。
技术框架:SPARROW的整体框架包括以下几个主要部分:1) 一个类无关的SAM2-based提议器,用于生成候选的目标区域;2) 目标特定跟踪特征(TSF)模块,用于提取时间对齐的参照线索;3) 双提示解码器,用于解码框和分割token,并融合几何先验和语义信息;4) 集成到现有的视频MLLM(如UniPixel、GLUS和VideoGLaMM)中进行端到端训练和推理。
关键创新:SPARROW最重要的技术创新点在于其目标特定跟踪特征(TSF)和双提示设计。TSF通过在训练期间注入时间对齐的参照线索,使得模型能够更好地跟踪视频中的目标。双提示设计则通过同时解码框和分割token,融合了几何先验和语义信息,从而提升了定位的精度和稳定性。与现有方法相比,SPARROW能够更好地利用视频中的时间信息,从而实现更准确和更稳定的像素级别定位。
关键设计:SPARROW的关键设计包括:1) TSF模块的具体实现方式,例如如何提取和对齐时间特征;2) 双提示解码器的具体结构和损失函数,例如如何融合框和分割信息;3) 数据集的构建方式,例如如何生成包含时间参照信息的问答对;4) SAM2-based 提议器的参数设置和训练策略。
🖼️ 关键图片
📊 实验亮点
SPARROW在六个基准测试中取得了显著的性能提升。在RVOS上,J&F指标提升了高达+8.9。在视觉定位任务中,mIoU指标提升了+5。在GCG任务中,CLAIR指标提升了+5.4。这些结果表明,SPARROW能够显著提高视频MLLM在像素级别定位时的参照稳定性、空间精度和时间连贯性。
🎯 应用场景
SPARROW在视频理解、视频编辑、机器人导航等领域具有广泛的应用前景。例如,它可以用于视频目标跟踪、视频问答、人机交互等任务。通过提高视频MLLM的空间精确性和时间参照一致性,SPARROW可以帮助机器更好地理解视频内容,从而实现更智能化的应用。
📄 摘要(原文)
Multimodal large language models (MLLMs) have advanced from image-level reasoning to pixel-level grounding, but extending these capabilities to videos remains challenging as models must achieve spatial precision and temporally consistent reference tracking. Existing video MLLMs often rely on a static segmentation token ([SEG]) for frame-wise grounding, which provides semantics but lacks temporal context, causing spatial drift, identity switches, and unstable initialization when objects move or reappear. We introduce SPARROW, a pixel-grounded video MLLM that unifies spatial accuracy and temporal stability through two key components: (i) Target-Specific Tracked Features (TSF), which inject temporally aligned referent cues during training, and (ii) a dual-prompt design that decodes box ([BOX]) and segmentation ([SEG]) tokens to fuse geometric priors with semantic grounding. SPARROW is supported by a curated referential video dataset of 30,646 videos and 45,231 Q&A pairs and operates end-to-end without external detectors via a class-agnostic SAM2-based proposer. Integrated into three recent open-source video MLLMs (UniPixel, GLUS, and VideoGLaMM), SPARROW delivers consistent gains across six benchmarks, improving up to +8.9 J&F on RVOS, +5 mIoU on visual grounding, and +5.4 CLAIR on GCG. These results demonstrate that SPARROW substantially improves referential stability, spatial precision, and temporal coherence in pixel-grounded video understanding. Project page: https://risys-lab.github.io/SPARROW