SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs

作者: Mohamad Alansari, Naufal Suryanto, Divya Velayudhan, Sajid Javed, Naoufel Werghi, Muzammal Naseer

分类: cs.CV, cs.AI

发布日期: 2026-03-12

备注: Accepted at CVPR 2026; Project page: https://risys-lab.github.io/SPARROW; Repository: https://github.com/RISys-Lab/SPARROW

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

SPARROW：像素级视频MLLM，学习空间精确性和时间参照一致性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频多模态大语言模型 像素级定位 时间参照一致性 目标跟踪 视觉问答

📋 核心要点

现有视频MLLM在像素级定位时，缺乏时间上下文，导致空间漂移和身份切换等问题。
SPARROW通过目标特定跟踪特征(TSF)和双提示设计，融合了几何先验和语义定位，提升了时间一致性。
实验表明，SPARROW在多个基准测试中显著提升了参照稳定性、空间精度和时间连贯性。

📝 摘要（中文）

多模态大型语言模型(MLLM)已经从图像级推理发展到像素级定位，但将这些能力扩展到视频仍然具有挑战性，因为模型必须实现空间精确性和时间一致的参照跟踪。现有的视频MLLM通常依赖于静态分割token([SEG])进行逐帧定位，这提供了语义信息，但缺乏时间上下文，导致空间漂移、身份切换以及对象移动或重新出现时的不稳定初始化。我们提出了SPARROW，一种像素级视频MLLM，它通过两个关键组件统一了空间精度和时间稳定性：(i)目标特定跟踪特征(TSF)，在训练期间注入时间对齐的参照线索；(ii)双提示设计，解码框([BOX])和分割([SEG])token，以融合几何先验和语义定位。SPARROW由一个包含30,646个视频和45,231个问答对的精选参照视频数据集支持，并通过一个基于类无关SAM2的提议器进行端到端操作，无需外部检测器。SPARROW集成到三个最新的开源视频MLLM(UniPixel、GLUS和VideoGLaMM)中，在六个基准测试中提供了持续的提升，在RVOS上提高了高达+8.9 J&F，在视觉定位上提高了+5 mIoU，在GCG上提高了+5.4 CLAIR。这些结果表明，SPARROW显著提高了像素级视频理解中的参照稳定性、空间精度和时间连贯性。

🔬 方法详解

问题定义：现有视频多模态大语言模型在进行像素级别的视觉定位时，主要依赖于逐帧的静态分割token。这种方法忽略了视频中的时间信息，导致模型在处理运动物体或物体重新出现时，出现空间漂移、身份切换等问题，无法保证时间参照的一致性。

核心思路：SPARROW的核心思路是通过引入时间对齐的参照线索，并结合几何先验和语义信息，来提升视频MLLM在像素级别定位时的空间精确性和时间参照一致性。具体来说，它通过目标特定跟踪特征（TSF）来注入时间信息，并通过双提示设计来融合框和分割信息。

技术框架：SPARROW的整体框架包括以下几个主要部分：1) 一个类无关的SAM2-based提议器，用于生成候选的目标区域；2) 目标特定跟踪特征（TSF）模块，用于提取时间对齐的参照线索；3) 双提示解码器，用于解码框和分割token，并融合几何先验和语义信息；4) 集成到现有的视频MLLM（如UniPixel、GLUS和VideoGLaMM）中进行端到端训练和推理。

关键创新：SPARROW最重要的技术创新点在于其目标特定跟踪特征（TSF）和双提示设计。TSF通过在训练期间注入时间对齐的参照线索，使得模型能够更好地跟踪视频中的目标。双提示设计则通过同时解码框和分割token，融合了几何先验和语义信息，从而提升了定位的精度和稳定性。与现有方法相比，SPARROW能够更好地利用视频中的时间信息，从而实现更准确和更稳定的像素级别定位。

关键设计：SPARROW的关键设计包括：1) TSF模块的具体实现方式，例如如何提取和对齐时间特征；2) 双提示解码器的具体结构和损失函数，例如如何融合框和分割信息；3) 数据集的构建方式，例如如何生成包含时间参照信息的问答对；4) SAM2-based 提议器的参数设置和训练策略。

🖼️ 关键图片

📊 实验亮点

SPARROW在六个基准测试中取得了显著的性能提升。在RVOS上，J&F指标提升了高达+8.9。在视觉定位任务中，mIoU指标提升了+5。在GCG任务中，CLAIR指标提升了+5.4。这些结果表明，SPARROW能够显著提高视频MLLM在像素级别定位时的参照稳定性、空间精度和时间连贯性。

🎯 应用场景

SPARROW在视频理解、视频编辑、机器人导航等领域具有广泛的应用前景。例如，它可以用于视频目标跟踪、视频问答、人机交互等任务。通过提高视频MLLM的空间精确性和时间参照一致性，SPARROW可以帮助机器更好地理解视频内容，从而实现更智能化的应用。

📄 摘要（原文）

Multimodal large language models (MLLMs) have advanced from image-level reasoning to pixel-level grounding, but extending these capabilities to videos remains challenging as models must achieve spatial precision and temporally consistent reference tracking. Existing video MLLMs often rely on a static segmentation token ([SEG]) for frame-wise grounding, which provides semantics but lacks temporal context, causing spatial drift, identity switches, and unstable initialization when objects move or reappear. We introduce SPARROW, a pixel-grounded video MLLM that unifies spatial accuracy and temporal stability through two key components: (i) Target-Specific Tracked Features (TSF), which inject temporally aligned referent cues during training, and (ii) a dual-prompt design that decodes box ([BOX]) and segmentation ([SEG]) tokens to fuse geometric priors with semantic grounding. SPARROW is supported by a curated referential video dataset of 30,646 videos and 45,231 Q&A pairs and operates end-to-end without external detectors via a class-agnostic SAM2-based proposer. Integrated into three recent open-source video MLLMs (UniPixel, GLUS, and VideoGLaMM), SPARROW delivers consistent gains across six benchmarks, improving up to +8.9 J&F on RVOS, +5 mIoU on visual grounding, and +5.4 CLAIR on GCG. These results demonstrate that SPARROW substantially improves referential stability, spatial precision, and temporal coherence in pixel-grounded video understanding. Project page: https://risys-lab.github.io/SPARROW

SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理