TTT3R: 3D Reconstruction as Test-Time Training

📄 arXiv: 2509.26645v3 📥 PDF

作者: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen

分类: cs.CV

发布日期: 2025-09-30 (更新: 2025-10-16)

备注: Page: https://rover-xingyu.github.io/TTT3R/ Code: https://github.com/Inception3D/TTT3R

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出TTT3R以解决3D重建中的长度泛化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D重建 在线学习 递归神经网络 姿态估计 长度泛化 实时处理 深度学习

📋 核心要点

  1. 现有的递归神经网络在处理超出训练上下文长度的输入时,性能显著下降,显示出长度泛化能力不足。
  2. 本文提出了一种新的在线学习框架TTT3R,通过对齐记忆状态与新观测的置信度来优化记忆更新过程。
  3. 实验结果表明,TTT3R在全局姿态估计上实现了2倍的性能提升,同时保持高效的处理速度和低内存占用。

📝 摘要(中文)

现代递归神经网络因其线性时间复杂度而成为3D重建的竞争性架构。然而,当应用于超出训练上下文长度时,其性能显著下降,显示出有限的长度泛化能力。本文从测试时训练的角度重新审视3D重建基础模型,将其设计框架视为在线学习问题。基于这一视角,我们利用记忆状态与输入观测之间的对齐置信度,推导出用于记忆更新的闭式学习率,以平衡保留历史信息与适应新观测之间的关系。这种无训练干预的方式,称为TTT3R,显著提高了长度泛化能力,在全局姿态估计上实现了2倍的提升,同时以20 FPS的速度处理数千张图像,仅需6 GB的GPU内存。代码可在https://rover-xingyu.github.io/TTT3R获取。

🔬 方法详解

问题定义:本文旨在解决现有3D重建方法在处理超出训练上下文长度时的性能下降问题,现有方法在长度泛化能力上存在明显不足。

核心思路:论文提出TTT3R,将3D重建视为在线学习问题,通过对齐记忆状态与新观测的置信度来动态调整学习率,从而在保留历史信息的同时适应新数据。

技术框架:TTT3R的整体架构包括输入观测的接收、记忆状态的更新和学习率的动态调整三个主要模块。首先接收新的输入观测,然后根据对齐置信度更新记忆状态,最后调整学习率以优化记忆更新。

关键创新:TTT3R的主要创新在于其无训练干预的学习率调整机制,这一机制通过对齐记忆状态与新观测的置信度来实现,与传统方法相比,能够更有效地处理新数据。

关键设计:在设计中,TTT3R采用了闭式学习率推导,确保在更新记忆时能够平衡历史信息与新观测的影响,此外,网络结构经过优化以适应实时处理需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,TTT3R在全局姿态估计任务上实现了2倍的性能提升,相较于基线方法,处理速度达到20 FPS,并且仅需6 GB的GPU内存,展现出优越的效率和性能。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人导航和增强现实等场景,能够在动态环境中实现高效的3D重建。TTT3R的高效性和实时性使其在需要快速响应的应用中具有重要价值,未来可能推动相关技术的广泛应用与发展。

📄 摘要(原文)

Modern Recurrent Neural Networks have become a competitive architecture for 3D reconstruction due to their linear-time complexity. However, their performance degrades significantly when applied beyond the training context length, revealing limited length generalization. In this work, we revisit the 3D reconstruction foundation models from a Test-Time Training perspective, framing their designs as an online learning problem. Building on this perspective, we leverage the alignment confidence between the memory state and incoming observations to derive a closed-form learning rate for memory updates, to balance between retaining historical information and adapting to new observations. This training-free intervention, termed TTT3R, substantially improves length generalization, achieving a $2\times$ improvement in global pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU memory to process thousands of images. Code available in https://rover-xingyu.github.io/TTT3R