Mem3R: Streaming 3D Reconstruction with Hybrid Memory via Test-Time Training
作者: Changkun Liu, Jiezhi Yang, Zeman Li, Yuan Deng, Jiancong Guo, Luca Ballan
分类: cs.CV
发布日期: 2026-04-08
备注: Project page: https://lck666666.github.io/Mem3R/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Mem3R:通过测试时训练和混合记忆实现流式3D重建,提升长序列一致性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 流式3D重建 混合记忆 测试时训练 相机跟踪 几何映射 长序列 循环神经网络
📋 核心要点
- 现有循环3D重建模型在处理长序列时,由于潜在记忆容量限制,容易出现漂移累积和时间遗忘问题。
- Mem3R通过混合记忆设计,将相机跟踪与几何映射解耦,利用隐式快速权重记忆进行相机跟踪,显式token记忆进行几何映射。
- 实验表明,Mem3R在长序列上显著提升了时间一致性,降低了绝对轨迹误差,并减小了模型尺寸,同时保持了推理效率。
📝 摘要(中文)
流式3D感知非常适合机器人和增强现实应用,在这些应用中,必须高效且一致地处理长视觉流。最近的循环模型通过维护固定大小的状态并实现线性时间推理,提供了一种有希望的解决方案,但由于压缩潜在记忆的容量有限,它们经常遭受漂移累积和长期序列中的时间遗忘。我们提出了Mem3R,一种具有混合记忆设计的流式3D重建模型,它将相机跟踪与几何映射分离,以提高长序列的时间一致性。对于相机跟踪,Mem3R采用隐式快速权重记忆,该记忆实现为一个轻量级多层感知器,并通过测试时训练进行更新。对于几何映射,Mem3R维护一个显式的基于token的固定大小状态。与CUT3R相比,这种设计不仅显著提高了长序列性能,还将模型大小从793M减少到644M参数。Mem3R支持为CUT3R开发的现有改进的即插即用状态更新策略。具体来说,将其与TTT3R集成,在500到1000帧的序列上,绝对轨迹误差最多可降低39%。由此产生的改进也扩展到其他下游任务,包括视频深度估计和3D重建,同时保持恒定的GPU内存使用和相当的推理吞吐量。
🔬 方法详解
问题定义:论文旨在解决流式3D重建中,现有循环模型在处理长序列时出现的漂移累积和时间遗忘问题。这些问题导致重建质量下降,尤其是在机器人和增强现实等需要长时间稳定跟踪的应用中。现有方法的痛点在于固定大小的潜在记忆容量有限,无法有效捕捉和维护长序列中的信息。
核心思路:Mem3R的核心思路是将相机跟踪和几何映射解耦,并分别使用不同的记忆机制。相机跟踪采用隐式快速权重记忆,通过测试时训练快速适应场景变化,减少漂移。几何映射则使用显式的token记忆,维护场景的几何信息。这种混合记忆设计旨在结合两者的优点,提高长序列重建的稳定性和准确性。
技术框架:Mem3R的整体框架包含相机跟踪模块和几何映射模块。相机跟踪模块使用一个轻量级的多层感知器(MLP)作为隐式快速权重记忆,通过测试时训练(TTT)进行更新,以适应当前场景。几何映射模块维护一个基于token的固定大小状态,用于存储场景的几何信息。模型接收视频流作为输入,相机跟踪模块估计相机位姿,几何映射模块更新场景几何表示,最终输出3D重建结果。
关键创新:Mem3R最重要的技术创新点在于混合记忆设计,它将相机跟踪和几何映射解耦,并分别使用隐式快速权重记忆和显式token记忆。这种设计能够更好地捕捉和维护长序列中的信息,减少漂移累积,提高重建质量。与现有方法相比,Mem3R能够更有效地利用有限的记忆容量,实现更稳定的长序列重建。
关键设计:相机跟踪模块中的MLP采用轻量级设计,以减少计算负担。测试时训练使用自监督损失函数,例如光度一致性损失,来优化MLP的权重。几何映射模块中的token记忆采用固定大小的设计,以保证推理效率。论文还支持集成CUT3R中提出的即插即用状态更新策略,例如TTT3R,以进一步提高性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Mem3R在长序列重建任务中显著优于CUT3R。通过与TTT3R集成,Mem3R在500到1000帧的序列上,绝对轨迹误差最多可降低39%。此外,Mem3R在减小模型尺寸的同时,保持了与CUT3R相当的推理吞吐量和GPU内存使用。这些结果表明,Mem3R在长序列重建的准确性、效率和资源利用率方面都具有优势。
🎯 应用场景
Mem3R在机器人、增强现实、自动驾驶等领域具有广泛的应用前景。它可以用于实时3D环境感知、场景重建、SLAM等任务,为机器人提供更准确的环境信息,为AR应用提供更逼真的虚拟体验,为自动驾驶提供更可靠的定位和地图构建。该研究的成果有助于推动这些领域的发展,实现更智能、更高效的应用。
📄 摘要(原文)
Streaming 3D perception is well suited to robotics and augmented reality, where long visual streams must be processed efficiently and consistently. Recent recurrent models offer a promising solution by maintaining fixed-size states and enabling linear-time inference, but they often suffer from drift accumulation and temporal forgetting over long sequences due to the limited capacity of compressed latent memories. We propose Mem3R, a streaming 3D reconstruction model with a hybrid memory design that decouples camera tracking from geometric mapping to improve temporal consistency over long sequences. For camera tracking, Mem3R employs an implicit fast-weight memory implemented as a lightweight Multi-Layer Perceptron updated via Test-Time Training. For geometric mapping, Mem3R maintains an explicit token-based fixed-size state. Compared with CUT3R, this design not only significantly improves long-sequence performance but also reduces the model size from 793M to 644M parameters. Mem3R supports existing improved plug-and-play state update strategies developed for CUT3R. Specifically, integrating it with TTT3R decreases Absolute Trajectory Error by up to 39% over the base implementation on 500 to 1000 frame sequences. The resulting improvements also extend to other downstream tasks, including video depth estimation and 3D reconstruction, while preserving constant GPU memory usage and comparable inference throughput. Project page: https://lck666666.github.io/Mem3R/