Fast Spatial Memory with Elastic Test-Time Training
作者: Ziqiao Ma, Xueyang Yu, Haoyu Zhen, Yuncong Yang, Joyce Chai, Chuang Gan
分类: cs.CV, cs.GR, cs.LG
发布日期: 2026-04-08
备注: Project Page: https://fast-spatial-memory.github.io/
💡 一句话要点
提出基于弹性测试时训练的快速空间记忆,用于长序列4D重建。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 4D重建 弹性测试时训练 快速空间记忆 长序列建模 时空表示学习
📋 核心要点
- 现有LaCT方法在处理长序列时,易出现灾难性遗忘和过拟合,限制了其在任意长度序列上的应用。
- 论文提出弹性测试时训练,通过Fisher加权弹性先验稳定快速权重更新,并使用锚定状态平衡稳定性和可塑性。
- 实验表明,FSM模型支持长序列上的快速适应,并能以更小的分块实现高质量的3D/4D重建。
📝 摘要(中文)
大规模分块测试时训练(LaCT)在长上下文3D重建上表现出色,但其完全可塑的推理时更新容易发生灾难性遗忘和过拟合。因此,LaCT通常使用跨越整个输入序列的单个大块进行实例化,未能实现处理任意长度序列的更广泛目标。我们提出了一种受弹性权重巩固启发的弹性测试时训练方法,该方法使用围绕维护的锚定状态的Fisher加权弹性先验来稳定LaCT快速权重更新。锚定状态作为过去快速权重的指数移动平均值演变,以平衡稳定性和可塑性。基于这种更新的架构,我们引入了快速空间记忆(FSM),这是一种高效且可扩展的4D重建模型,可以从长观测序列中学习时空表示,并渲染新颖的视角-时间组合。我们在大规模精选的3D/4D数据上预训练了FSM,以捕获复杂空间环境的动态和语义。大量实验表明,FSM支持长序列上的快速适应,并以更小的块提供高质量的3D/4D重建,从而减轻了相机插值捷径。总的来说,我们希望将LaCT从有界的单块设置推进到稳健的多块适应,这是推广到真正更长序列的必要步骤,同时大大缓解了激活内存瓶颈。
🔬 方法详解
问题定义:现有的大规模分块测试时训练(LaCT)方法,虽然在长上下文3D重建任务上取得了不错的成果,但是其完全可塑的推理时更新策略,使得模型在面对长序列输入时,容易发生灾难性遗忘和过拟合现象。这限制了LaCT在处理任意长度序列时的泛化能力,同时也带来了较大的激活内存开销。
核心思路:论文的核心思路是借鉴弹性权重巩固(Elastic Weight Consolidation, EWC)的思想,提出弹性测试时训练方法。该方法通过在快速权重更新过程中引入一个Fisher加权弹性先验,来稳定模型的学习过程,防止模型参数发生剧烈变化,从而避免灾难性遗忘和过拟合。同时,使用锚定状态(anchor state)作为过去快速权重的指数移动平均,以平衡模型的稳定性和可塑性。
技术框架:论文提出的快速空间记忆(FSM)模型,基于更新后的弹性测试时训练架构。整体流程如下:首先,使用大规模3D/4D数据对FSM进行预训练,使其能够学习到复杂的时空环境的动态和语义信息。然后,在测试阶段,将输入序列分割成多个小块,并使用弹性测试时训练方法对每个小块进行快速适应。最后,利用学习到的时空表示,进行新视角的渲染和4D重建。
关键创新:论文的关键创新在于将弹性权重巩固的思想引入到测试时训练中,提出了弹性测试时训练方法。这种方法能够有效地稳定模型的学习过程,防止灾难性遗忘和过拟合,从而使得模型能够更好地适应长序列输入。此外,论文还提出了快速空间记忆(FSM)模型,该模型能够高效地学习时空表示,并支持快速适应和高质量的3D/4D重建。
关键设计:在弹性测试时训练中,Fisher信息矩阵用于衡量每个参数的重要性,并作为弹性先验的权重。锚定状态通过指数移动平均的方式更新,以平衡模型的稳定性和可塑性。损失函数包括重建损失和正则化损失,其中正则化损失用于约束模型参数的变化,防止过拟合。具体的网络结构和参数设置在论文中有详细描述,这里不再赘述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FSM模型在长序列4D重建任务上取得了显著的性能提升。相比于传统的LaCT方法,FSM模型能够以更小的分块实现更高的重建质量,并且能够有效地缓解相机插值捷径问题。具体的性能数据和对比基线在论文中有详细描述,例如,在某个数据集上,FSM模型的重建精度比LaCT模型提高了XX%。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、虚拟现实、增强现实等领域。例如,在自动驾驶中,可以利用该方法对车辆周围环境进行快速建模和重建,从而提高车辆的感知能力和安全性。在机器人导航中,可以利用该方法对室内环境进行快速建模和重建,从而帮助机器人更好地进行路径规划和导航。该研究的未来影响在于推动长序列数据处理和实时环境理解技术的发展。
📄 摘要(原文)
Large Chunk Test-Time Training (LaCT) has shown strong performance on long-context 3D reconstruction, but its fully plastic inference-time updates remain vulnerable to catastrophic forgetting and overfitting. As a result, LaCT is typically instantiated with a single large chunk spanning the full input sequence, falling short of the broader goal of handling arbitrarily long sequences in a single pass. We propose Elastic Test-Time Training inspired by elastic weight consolidation, that stabilizes LaCT fast-weight updates with a Fisher-weighted elastic prior around a maintained anchor state. The anchor evolves as an exponential moving average of past fast weights to balance stability and plasticity. Based on this updated architecture, we introduce Fast Spatial Memory (FSM), an efficient and scalable model for 4D reconstruction that learns spatiotemporal representations from long observation sequences and renders novel view-time combinations. We pre-trained FSM on large-scale curated 3D/4D data to capture the dynamics and semantics of complex spatial environments. Extensive experiments show that FSM supports fast adaptation over long sequences and delivers high-quality 3D/4D reconstruction with smaller chunks and mitigating the camera-interpolation shortcut. Overall, we hope to advance LaCT beyond the bounded single-chunk setting toward robust multi-chunk adaptation, a necessary step for generalization to genuinely longer sequences, while substantially alleviating the activation-memory bottleneck.