Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training

📄 arXiv: 2603.12255v1 📥 PDF

作者: Fangfu Liu, Diankun Wu, Jiawei Chi, Yimo Cai, Yi-Hsin Hung, Xumin Yu, Hao Li, Han Hu, Yongming Rao, Yueqi Duan

分类: cs.CV, cs.LG

发布日期: 2026-03-12

备注: Project Page: https://liuff19.github.io/Spatial-TTT

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Spatial-TTT,通过测试时训练实现基于视频流的空间智能。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 空间智能 视频理解 测试时训练 长时程建模 3D空间 时空卷积 机器人导航

📋 核心要点

  1. 现有方法难以有效选择、组织和长期保留视频流中的空间信息,限制了空间智能的发展。
  2. Spatial-TTT通过测试时训练自适应部分参数(快速权重),捕捉和组织长时程视频中的空间证据。
  3. 实验表明,Spatial-TTT显著提升了长时程空间理解能力,并在视频空间基准上达到SOTA。

📝 摘要(中文)

本文提出Spatial-TTT,旨在通过测试时训练(TTT)实现基于视频流的空间智能。该方法能够从潜在的无限视频流中流式地维护和更新空间证据。核心挑战在于如何选择、组织和长期保留空间信息,而不仅仅是扩展上下文窗口。Spatial-TTT采用混合架构,利用大块更新和滑动窗口注意力并行处理空间视频,提高效率。为了增强空间感知能力,引入了空间预测机制,应用于具有3D时空卷积的TTT层,鼓励模型捕捉跨帧的几何对应关系和时间连续性。此外,构建了一个包含密集3D空间描述的数据集,指导模型更新其快速权重,以结构化的方式记忆和组织全局3D空间信号。实验结果表明,Spatial-TTT提高了长时程空间理解能力,并在视频空间基准测试中取得了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决如何从连续的视频流中提取、组织和维护空间信息,从而实现长期空间理解的问题。现有方法通常依赖于扩展上下文窗口,但忽略了空间信息的选择和组织,导致效率低下和性能瓶颈。此外,缺乏包含密集3D空间描述的数据集也限制了模型对空间信息的学习能力。

核心思路:Spatial-TTT的核心思路是利用测试时训练(TTT)自适应地调整模型参数,使其能够捕捉和组织长时程视频中的空间证据。通过引入快速权重,模型可以根据当前视频流的特点进行调整,从而更好地适应不同的场景和视角。空间预测机制则进一步增强了模型对空间几何关系和时间连续性的理解。

技术框架:Spatial-TTT的整体架构包含以下几个主要模块:1) 混合架构:结合了卷积神经网络和Transformer,用于高效的空间视频处理。2) 大块更新和滑动窗口注意力:并行处理空间视频,提高计算效率。3) 空间预测机制:通过3D时空卷积应用于TTT层,鼓励模型捕捉几何对应关系和时间连续性。4) 测试时训练(TTT):自适应地调整快速权重,以捕捉和组织空间证据。

关键创新:Spatial-TTT的关键创新在于将测试时训练应用于空间视频理解,并引入了空间预测机制。与传统的离线训练方法不同,TTT允许模型在测试阶段根据当前视频流的特点进行自适应调整,从而更好地适应不同的场景和视角。空间预测机制则通过预测未来帧的空间信息,增强了模型对空间几何关系和时间连续性的理解。

关键设计:Spatial-TTT的关键设计包括:1) 快速权重的选择:选择一部分参数作为快速权重,以便在测试时进行自适应调整。2) 空间预测损失函数:设计损失函数,鼓励模型预测未来帧的空间信息。3) 3D时空卷积:使用3D时空卷积来捕捉跨帧的几何对应关系和时间连续性。4) 数据集构建:构建包含密集3D空间描述的数据集,用于指导模型学习空间信息。

📊 实验亮点

Spatial-TTT在视频空间基准测试中取得了最先进的性能,证明了其在长时程空间理解方面的有效性。具体性能数据和对比基线信息未在摘要中明确给出,但强调了其SOTA地位。

🎯 应用场景

Spatial-TTT在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人或自动驾驶车辆更好地理解周围环境,从而实现更安全、更高效的导航。在增强现实应用中,Spatial-TTT可以用于构建更逼真的虚拟环境,并实现更自然的交互。

📄 摘要(原文)

Humans perceive and understand real-world spaces through a stream of visual observations. Therefore, the ability to streamingly maintain and update spatial evidence from potentially unbounded video streams is essential for spatial intelligence. The core challenge is not simply longer context windows but how spatial information is selected, organized, and retained over time. In this paper, we propose Spatial-TTT towards streaming visual-based spatial intelligence with test-time training (TTT), which adapts a subset of parameters (fast weights) to capture and organize spatial evidence over long-horizon scene videos. Specifically, we design a hybrid architecture and adopt large-chunk updates parallel with sliding-window attention for efficient spatial video processing. To further promote spatial awareness, we introduce a spatial-predictive mechanism applied to TTT layers with 3D spatiotemporal convolution, which encourages the model to capture geometric correspondence and temporal continuity across frames. Beyond architecture design, we construct a dataset with dense 3D spatial descriptions, which guides the model to update its fast weights to memorize and organize global 3D spatial signals in a structured manner. Extensive experiments demonstrate that Spatial-TTT improves long-horizon spatial understanding and achieves state-of-the-art performance on video spatial benchmarks. Project page: https://liuff19.github.io/Spatial-TTT.