TTT3R: 3D Reconstruction as Test-Time Training
作者: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen
分类: cs.CV
发布日期: 2025-09-30 (更新: 2025-10-16)
备注: Page: https://rover-xingyu.github.io/TTT3R/ Code: https://github.com/Inception3D/TTT3R
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出TTT3R以解决3D重建中的长度泛化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D重建 在线学习 递归神经网络 姿态估计 长度泛化 实时处理 深度学习
📋 核心要点
- 现有的递归神经网络在处理超出训练上下文长度的输入时,性能显著下降,显示出长度泛化能力不足。
- 本文提出了一种新的在线学习框架TTT3R,通过对齐记忆状态与新观测的置信度来优化记忆更新过程。
- 实验结果表明,TTT3R在全局姿态估计上实现了2倍的性能提升,同时保持高效的处理速度和低内存占用。
📝 摘要(中文)
现代递归神经网络因其线性时间复杂度而成为3D重建的竞争性架构。然而,当应用于超出训练上下文长度时,其性能显著下降,显示出有限的长度泛化能力。本文从测试时训练的角度重新审视3D重建基础模型,将其设计框架视为在线学习问题。基于这一视角,我们利用记忆状态与输入观测之间的对齐置信度,推导出用于记忆更新的闭式学习率,以平衡保留历史信息与适应新观测之间的关系。这种无训练干预的方式,称为TTT3R,显著提高了长度泛化能力,在全局姿态估计上实现了2倍的提升,同时以20 FPS的速度处理数千张图像,仅需6 GB的GPU内存。代码可在https://rover-xingyu.github.io/TTT3R获取。
🔬 方法详解
问题定义:本文旨在解决现有3D重建方法在处理超出训练上下文长度时的性能下降问题,现有方法在长度泛化能力上存在明显不足。
核心思路:论文提出TTT3R,将3D重建视为在线学习问题,通过对齐记忆状态与新观测的置信度来动态调整学习率,从而在保留历史信息的同时适应新数据。
技术框架:TTT3R的整体架构包括输入观测的接收、记忆状态的更新和学习率的动态调整三个主要模块。首先接收新的输入观测,然后根据对齐置信度更新记忆状态,最后调整学习率以优化记忆更新。
关键创新:TTT3R的主要创新在于其无训练干预的学习率调整机制,这一机制通过对齐记忆状态与新观测的置信度来实现,与传统方法相比,能够更有效地处理新数据。
关键设计:在设计中,TTT3R采用了闭式学习率推导,确保在更新记忆时能够平衡历史信息与新观测的影响,此外,网络结构经过优化以适应实时处理需求。
🖼️ 关键图片
📊 实验亮点
实验结果显示,TTT3R在全局姿态估计任务上实现了2倍的性能提升,相较于基线方法,处理速度达到20 FPS,并且仅需6 GB的GPU内存,展现出优越的效率和性能。
🎯 应用场景
该研究的潜在应用领域包括自动驾驶、机器人导航和增强现实等场景,能够在动态环境中实现高效的3D重建。TTT3R的高效性和实时性使其在需要快速响应的应用中具有重要价值,未来可能推动相关技术的广泛应用与发展。
📄 摘要(原文)
Modern Recurrent Neural Networks have become a competitive architecture for 3D reconstruction due to their linear-time complexity. However, their performance degrades significantly when applied beyond the training context length, revealing limited length generalization. In this work, we revisit the 3D reconstruction foundation models from a Test-Time Training perspective, framing their designs as an online learning problem. Building on this perspective, we leverage the alignment confidence between the memory state and incoming observations to derive a closed-form learning rate for memory updates, to balance between retaining historical information and adapting to new observations. This training-free intervention, termed TTT3R, substantially improves length generalization, achieving a $2\times$ improvement in global pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU memory to process thousands of images. Code available in https://rover-xingyu.github.io/TTT3R