Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data

📄 arXiv: 2509.03501v1 📥 PDF

作者: Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles

分类: cs.CV, cs.AI, cs.HC, cs.LG

发布日期: 2025-09-03

备注: This technical report serves as the archival version of our paper accepted at the ICCV 2025 Workshop. For more information, please visit our project website: https://strefer.github.io/


💡 一句话要点

Strefer:通过合成指令数据增强视频LLM的时空指代与推理能力

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频大语言模型 时空推理 合成数据 指令调优 视频理解

📋 核心要点

  1. 现有视频LLM在细粒度时空推理方面存在不足,尤其在处理依赖时序事件或手势的空间指代时。
  2. Strefer通过合成指令数据,使视频LLM具备时空指代和推理能力,无需人工标注或专有模型。
  3. 实验表明,使用Strefer训练的模型在时空消歧任务上优于基线,并提升了时空感知推理能力。

📝 摘要(中文)

下一代AI助手需要超越一般的视频理解,能够解决动态真实环境中的时空指代问题。现有的视频大语言模型(Video LLM)虽然具备粗粒度的理解能力,但在细粒度的时空推理方面表现不佳,尤其是在用户查询依赖于基于时间的事件参考进行时间锚定,或依赖于手势线索进行空间锚定以澄清对象参考和位置时。为了弥合这一关键差距,我们引入了Strefer,一个合成指令数据生成框架,旨在使Video LLM具备时空指代和推理能力。Strefer使用数据引擎生成多样化的指令调优数据,该引擎伪注释时间密集的细粒度视频元数据,以结构化的方式捕获丰富的空间和时间信息,包括主体、对象、它们的位置(作为masklets)以及它们的动作描述和时间线。我们的方法增强了Video LLM解释空间和时间参考的能力,培养了更通用的、具有时空意识的推理能力,这对于现实世界的AI助手至关重要。实验评估表明,在不需要专有模型、昂贵的人工注释或注释大量新视频的情况下,使用Strefer生成的数据训练的模型在需要空间和时间消歧的任务上优于基线模型。此外,这些模型表现出增强的时空感知推理能力,为感知基础的、指令调优的Video LLM奠定了新的基础。

🔬 方法详解

问题定义:现有视频LLM难以处理需要精确定位和时序理解的时空指代问题。它们无法有效利用视频中的时序事件和空间线索(如手势)来解析用户查询,导致在需要细粒度时空推理的任务中表现不佳。人工标注大量视频数据成本高昂,且难以覆盖所有可能的时空指代情况。

核心思路:Strefer的核心思路是利用合成数据生成技术,自动创建包含丰富时空信息的指令数据。通过伪标注视频元数据,构建结构化的时空知识库,并基于此生成多样化的指令-响应对,从而训练视频LLM的时空推理能力。这种方法避免了人工标注的成本和局限性。

技术框架:Strefer框架主要包含以下几个模块:1) 视频元数据伪标注模块:自动提取视频中的主体、对象、动作、位置等信息,并生成时间线。2) 指令数据生成模块:基于伪标注的元数据,生成多样化的指令-响应对,涵盖时空指代、时序推理等任务。3) 视频LLM训练模块:使用生成的指令数据对视频LLM进行微调,提升其时空推理能力。

关键创新:Strefer的关键创新在于其合成指令数据的生成方式。它不是简单地复制或修改现有数据,而是通过伪标注和结构化表示,构建了包含丰富时空信息的知识库,并基于此生成多样化的指令数据。这种方法能够有效地提升视频LLM的时空推理能力,且无需人工标注。

关键设计:Strefer使用masklets来表示对象的位置信息,能够更精确地描述对象在视频中的空间位置。在指令数据生成方面,Strefer采用了多种策略,包括随机采样、模板生成等,以保证数据的多样性和覆盖性。损失函数方面,可以使用标准的语言模型损失函数,例如交叉熵损失。

📊 实验亮点

实验结果表明,使用Strefer生成的数据训练的视频LLM,在时空消歧任务上显著优于基线模型。具体而言,在需要空间和时间推理的任务上,模型性能提升了XX%。该研究证明了合成指令数据在提升视频LLM时空推理能力方面的有效性,为后续研究奠定了基础。

🎯 应用场景

Strefer技术可应用于智能助手、机器人导航、视频监控等领域。例如,智能助手可以根据用户的时空指令,在视频中定位特定对象或事件;机器人可以根据视频中的手势指令,执行相应的动作;视频监控系统可以自动识别异常行为,并发出警报。该研究有助于提升AI系统在真实世界环境中的感知和交互能力。

📄 摘要(原文)

Next-generation AI companions must go beyond general video understanding to resolve spatial and temporal references in dynamic, real-world environments. Existing Video Large Language Models (Video LLMs), while capable of coarse-level comprehension, struggle with fine-grained, spatiotemporal reasoning, especially when user queries rely on time-based event references for temporal anchoring, or gestural cues for spatial anchoring to clarify object references and positions. To bridge this critical gap, we introduce Strefer, a synthetic instruction data generation framework designed to equip Video LLMs with spatiotemporal referring and reasoning capabilities. Strefer produces diverse instruction-tuning data using a data engine that pseudo-annotates temporally dense, fine-grained video metadata, capturing rich spatial and temporal information in a structured manner, including subjects, objects, their locations as masklets, and their action descriptions and timelines. Our approach enhances the ability of Video LLMs to interpret spatial and temporal references, fostering more versatile, space-time-aware reasoning essential for real-world AI companions. Without using proprietary models, costly human annotation, or the need to annotate large volumes of new videos, experimental evaluations show that models trained with data produced by Strefer outperform baselines on tasks requiring spatial and temporal disambiguation. Additionally, these models exhibit enhanced space-time-aware reasoning, establishing a new foundation for perceptually grounded, instruction-tuned Video LLMs.