STORM: Internalized Modeling for Spatial-Temporal Reasoning in Video-Language Models
作者: Yiming Liang, Yixiao Chen, Yiyang Zhou, Yixuan Wang, Shoubin Yu, Andong Deng, Fuxiao Liu, Qin Zhang, Chen Chen, Mohit Bansal, Huaxiu Yao
分类: cs.CV, cs.CL
发布日期: 2026-05-25
💡 一句话要点
提出STORMS以解决视频语言模型中的时空推理问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频推理 时空建模 内部化推理 多模态学习 视觉语言模型
📋 核心要点
- 现有方法在视频推理中依赖外部工具和文本化过程,导致推理延迟和复杂性增加。
- STORMS通过内部建模潜在轨迹来实现时空推理,避免了显式的文本链式思维。
- 实验结果表明,STORMS在多个基准数据集上提高了推理准确性,并显著降低了推理时间。
📝 摘要(中文)
许多视频推理任务需要跟踪运动、时间顺序和跨帧的视觉状态演变。现有基于大型视觉语言模型(LVLMs)的方法通过文本链式思维(CoT)、关键帧选择等方式进行外部推理,虽然有效,但增加了推理延迟和工程复杂性。本文提出STORMS(时空推理的内部建模),通过界定连续潜在轨迹而非显式文本CoT来进行推理。STORMS的两阶段框架在训练过程中使用生成的视频进行对齐,推理时则无需重新生成视频,从而提高了视频推理的准确性并显著降低了推理开销。
🔬 方法详解
问题定义:本文旨在解决视频语言模型在时空推理中的效率和准确性问题。现有方法通常依赖文本化的推理过程,导致推理延迟和复杂性增加。
核心思路:STORMS的核心思想是通过内部建模潜在轨迹来进行推理,避免显式的文本链式思维,从而实现更高效的时空推理。
技术框架:STORMS框架分为两个阶段:第一阶段对齐潜在标记与生成视频的思维-视频表示,第二阶段通过仅使用答案监督进行进一步训练。推理时,模型执行有限的潜在展开,无需重新生成视频或调用外部工具。
关键创新:STORMS的主要创新在于内部化推理过程,避免了传统方法中对文本化推理的依赖。这一设计使得模型能够在不依赖外部工具的情况下进行有效推理。
关键设计:在训练过程中,模型通过生成的视频进行对齐,损失函数设计为鼓励潜在状态与动态视觉证据的结合,确保推理过程的有效性。
🖼️ 关键图片
📊 实验亮点
在VideoMME、MVBench、TempCompass和MMVU等多个基准数据集上的实验结果显示,STORMS在视频推理准确性上有显著提升,相较于传统工具或视频生成方法,推理开销显著降低,提升幅度达到XX%。
🎯 应用场景
该研究的潜在应用领域包括视频理解、智能监控和人机交互等。通过提高视频推理的效率和准确性,STORMS能够在实时视频分析和多模态学习中发挥重要作用,推动相关技术的发展。
📄 摘要(原文)
Many video reasoning tasks require tracking motion, temporal order, and evolving visual states across frames. Existing methods built on large vision-language models (LVLMs) often address this challenge by externalizing reasoning through textual chain-of-thought (CoT), keyframe selection, repeated frame reinsertion, or external tool use. While effective, such pipelines increase inference-time latency and engineering complexity, and they force temporal-visual evidence to be serialized into text or repeatedly re-encoded from frames. Inspired by the intuition that visual reasoning can occur implicitly before verbalization, we propose STORMS (Spatial-Temporal reasOning via inteRnalized Modeling), a two-stage framework that teaches LVLMs to reason through bounded continuous latent trajectories instead of explicit textual CoT. In Stage I, STORMS aligns latent tokens with thought-video representations derived from generated videos, grounding the latent states in dynamic visual evidence. In Stage II, the model is further trained with answer-only supervision, encouraging the reasoning process to be internalized without step-by-step annotations. Generated thought videos are used only during training; at inference, STORMS performs a bounded latent rollout without regenerating videos, reinserting frames, or invoking external visual tools. Experiments on VideoMME, MVBench, TempCompass, and MMVU show that STORMS improves video reasoning accuracy while substantially reducing inference overhead compared with tool or video-generation-based reasoning pipelines.