TTT3R: 3D Reconstruction as Test-Time Training

作者: Xingyu Chen, Yue Chen, Yuliang Xiu, Andreas Geiger, Anpei Chen

分类: cs.CV

发布日期: 2025-09-30 (更新: 2025-10-16)

备注: Page: https://rover-xingyu.github.io/TTT3R/ Code: https://github.com/Inception3D/TTT3R

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出TTT3R以解决3D重建中的长度泛化问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D重建 在线学习 递归神经网络 姿态估计 长度泛化 实时处理 深度学习

📋 核心要点

现有的递归神经网络在处理超出训练上下文长度的输入时，性能显著下降，显示出长度泛化能力不足。
本文提出了一种新的在线学习框架TTT3R，通过对齐记忆状态与新观测的置信度来优化记忆更新过程。
实验结果表明，TTT3R在全局姿态估计上实现了2倍的性能提升，同时保持高效的处理速度和低内存占用。

📝 摘要（中文）

现代递归神经网络因其线性时间复杂度而成为3D重建的竞争性架构。然而，当应用于超出训练上下文长度时，其性能显著下降，显示出有限的长度泛化能力。本文从测试时训练的角度重新审视3D重建基础模型，将其设计框架视为在线学习问题。基于这一视角，我们利用记忆状态与输入观测之间的对齐置信度，推导出用于记忆更新的闭式学习率，以平衡保留历史信息与适应新观测之间的关系。这种无训练干预的方式，称为TTT3R，显著提高了长度泛化能力，在全局姿态估计上实现了2倍的提升，同时以20 FPS的速度处理数千张图像，仅需6 GB的GPU内存。代码可在https://rover-xingyu.github.io/TTT3R获取。

🔬 方法详解

问题定义：本文旨在解决现有3D重建方法在处理超出训练上下文长度时的性能下降问题，现有方法在长度泛化能力上存在明显不足。

核心思路：论文提出TTT3R，将3D重建视为在线学习问题，通过对齐记忆状态与新观测的置信度来动态调整学习率，从而在保留历史信息的同时适应新数据。

技术框架：TTT3R的整体架构包括输入观测的接收、记忆状态的更新和学习率的动态调整三个主要模块。首先接收新的输入观测，然后根据对齐置信度更新记忆状态，最后调整学习率以优化记忆更新。

关键创新：TTT3R的主要创新在于其无训练干预的学习率调整机制，这一机制通过对齐记忆状态与新观测的置信度来实现，与传统方法相比，能够更有效地处理新数据。

关键设计：在设计中，TTT3R采用了闭式学习率推导，确保在更新记忆时能够平衡历史信息与新观测的影响，此外，网络结构经过优化以适应实时处理需求。

🖼️ 关键图片

📊 实验亮点

实验结果显示，TTT3R在全局姿态估计任务上实现了2倍的性能提升，相较于基线方法，处理速度达到20 FPS，并且仅需6 GB的GPU内存，展现出优越的效率和性能。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人导航和增强现实等场景，能够在动态环境中实现高效的3D重建。TTT3R的高效性和实时性使其在需要快速响应的应用中具有重要价值，未来可能推动相关技术的广泛应用与发展。

📄 摘要（原文）

Modern Recurrent Neural Networks have become a competitive architecture for 3D reconstruction due to their linear-time complexity. However, their performance degrades significantly when applied beyond the training context length, revealing limited length generalization. In this work, we revisit the 3D reconstruction foundation models from a Test-Time Training perspective, framing their designs as an online learning problem. Building on this perspective, we leverage the alignment confidence between the memory state and incoming observations to derive a closed-form learning rate for memory updates, to balance between retaining historical information and adapting to new observations. This training-free intervention, termed TTT3R, substantially improves length generalization, achieving a $2\times$ improvement in global pose estimation over baselines, while operating at 20 FPS with just 6 GB of GPU memory to process thousands of images. Code available in https://rover-xingyu.github.io/TTT3R

TTT3R: 3D Reconstruction as Test-Time Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理