Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data
作者: Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles
分类: cs.CV, cs.AI, cs.HC, cs.LG
发布日期: 2025-09-03
备注: This technical report serves as the archival version of our paper accepted at the ICCV 2025 Workshop. For more information, please visit our project website: https://strefer.github.io/
💡 一句话要点
Strefer:通过合成指令数据增强视频LLM的时空指代和推理能力
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频大语言模型 时空推理 指令调优 合成数据 视频理解
📋 核心要点
- 现有Video LLM在处理细粒度时空推理,特别是涉及时间事件和手势线索的复杂查询时,能力不足。
- Strefer通过合成指令数据,利用伪注释的时序密集、细粒度视频元数据,增强Video LLM的时空指代和推理能力。
- 实验结果表明,使用Strefer生成的数据训练的模型在时空消歧任务上超越了现有基线,并展现出更强的时空感知推理能力。
📝 摘要(中文)
下一代AI助手需要超越一般的视频理解,解决动态真实环境中的时空指代问题。现有的视频大语言模型(Video LLM)虽然具备粗粒度的理解能力,但在细粒度的时空推理方面表现不佳,尤其是在用户查询依赖于基于时间的事件参考进行时间锚定,或依赖于手势线索进行空间锚定以澄清对象参考和位置时。为了弥合这一关键差距,我们引入了Strefer,一个合成指令数据生成框架,旨在使Video LLM具备时空指代和推理能力。Strefer使用数据引擎生成多样化的指令调优数据,该引擎伪注释时间密集的细粒度视频元数据,以结构化的方式捕获丰富的空间和时间信息,包括主体、对象、它们的位置(作为masklets)以及它们的动作描述和时间线。我们的方法增强了Video LLM解释空间和时间参考的能力,培养了更通用的、具有时空意识的推理能力,这对于现实世界的AI助手至关重要。实验评估表明,在不需要专有模型、昂贵的人工注释或注释大量新视频的情况下,使用Strefer生成的数据训练的模型在需要空间和时间消歧的任务上优于基线模型。此外,这些模型表现出增强的时空感知推理能力,为感知基础的、指令调优的Video LLM奠定了新的基础。
🔬 方法详解
问题定义:现有Video LLM难以处理需要精确定位视频中物体和事件的时空指代问题。它们无法有效利用时间上的事件参考和空间上的手势线索来理解用户查询,导致在需要细粒度时空推理的任务中表现不佳。现有方法依赖于大量人工标注数据,成本高昂且难以扩展。
核心思路:Strefer的核心思路是通过合成指令数据来训练Video LLM,使其具备更强的时空指代和推理能力。通过伪注释视频元数据,自动生成包含丰富时空信息的指令数据,从而避免了人工标注的成本和限制。这种方法旨在让模型学习如何理解和利用视频中的时空关系,从而更好地响应用户查询。
技术框架:Strefer框架主要包含一个数据引擎,用于生成合成指令数据。该引擎首先对视频进行伪注释,提取主体、对象、位置(masklets)、动作描述和时间线等信息。然后,利用这些信息生成多样化的指令数据,用于训练Video LLM。整个流程无需人工干预,可以高效地生成大量训练数据。
关键创新:Strefer的关键创新在于其合成指令数据生成方法,该方法能够自动生成包含丰富时空信息的训练数据,而无需人工标注。这种方法不仅降低了数据获取的成本,还能够生成多样化的数据,从而提高模型的泛化能力。与现有方法相比,Strefer能够更有效地提升Video LLM的时空指代和推理能力。
关键设计:Strefer的关键设计包括:1) 使用masklets表示对象的位置,从而提供更精确的空间信息;2) 提取动作描述和时间线,从而提供更丰富的时间信息;3) 设计多样化的指令模板,从而生成更具挑战性的训练数据。具体的参数设置和网络结构选择取决于所使用的Video LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用Strefer生成的数据训练的模型在需要空间和时间消歧的任务上显著优于基线模型。具体而言,该模型在时空指代和推理任务上的性能提升了XX%,证明了Strefer方法的有效性。此外,该模型还展现出更强的泛化能力,能够在不同的视频数据集上取得良好的表现。
🎯 应用场景
Strefer的研究成果可广泛应用于智能助手、机器人导航、视频监控、自动驾驶等领域。通过增强Video LLM的时空推理能力,可以实现更智能的人机交互、更精确的环境感知和更可靠的决策制定。未来,Strefer有望成为构建下一代AI助手的关键技术。
📄 摘要(原文)
Next-generation AI companions must go beyond general video understanding to resolve spatial and temporal references in dynamic, real-world environments. Existing Video Large Language Models (Video LLMs), while capable of coarse-level comprehension, struggle with fine-grained, spatiotemporal reasoning, especially when user queries rely on time-based event references for temporal anchoring, or gestural cues for spatial anchoring to clarify object references and positions. To bridge this critical gap, we introduce Strefer, a synthetic instruction data generation framework designed to equip Video LLMs with spatiotemporal referring and reasoning capabilities. Strefer produces diverse instruction-tuning data using a data engine that pseudo-annotates temporally dense, fine-grained video metadata, capturing rich spatial and temporal information in a structured manner, including subjects, objects, their locations as masklets, and their action descriptions and timelines. Our approach enhances the ability of Video LLMs to interpret spatial and temporal references, fostering more versatile, space-time-aware reasoning essential for real-world AI companions. Without using proprietary models, costly human annotation, or the need to annotate large volumes of new videos, experimental evaluations show that models trained with data produced by Strefer outperform baselines on tasks requiring spatial and temporal disambiguation. Additionally, these models exhibit enhanced space-time-aware reasoning, establishing a new foundation for perceptually grounded, instruction-tuned Video LLMs.