AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

作者: Yutian Chen, Shi Guo, Renbiao Jin, Tianshuo Yang, Xin Cai, Yawen Luo, Mingxin Yang, Mulin Yu, Linning Xu, Tianfan Xue

分类: cs.CV

发布日期: 2026-04-21

备注: Webpage: https://yutian10.github.io/AnyRecon/

💡 一句话要点

AnyRecon：利用视频扩散模型实现任意视角下的三维重建

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: 三维重建 视频扩散模型 稀疏视角 几何感知 全局场景记忆

📋 核心要点

现有稀疏视角三维重建方法难以在非生成式重建中保持几何一致性，且难以扩展到大型或多样化场景。
AnyRecon通过构建持久的全局场景记忆和几何感知的条件策略，实现了对任意视角和无序输入的鲁棒重建。
该方法结合了扩散蒸馏和稀疏注意力机制，提高了重建效率，并在各种场景下展示了良好的重建效果。

📝 摘要（中文）

稀疏视角三维重建对于从随意拍摄的图像中建模场景至关重要，但对于非生成式重建仍然具有挑战性。现有的基于扩散的方法通过合成新视角来缓解这个问题，但它们通常仅以一到两个捕获帧为条件，这限制了几何一致性，并限制了对大型或多样化场景的可扩展性。我们提出了AnyRecon，这是一个可扩展的框架，用于从任意和无序的稀疏输入进行重建，该框架保留了显式的几何控制，同时支持灵活的条件基数。为了支持长程条件作用，我们的方法通过预先添加的捕获视图缓存来构建持久的全局场景记忆，并消除时间压缩以在大的视点变化下保持帧级别的对应关系。除了更好的生成模型之外，我们还发现生成和重建之间的相互作用对于大规模3D场景至关重要。因此，我们引入了一种几何感知条件策略，该策略通过显式的3D几何记忆和几何驱动的捕获视图检索将生成和重建结合起来。为了确保效率，我们将4步扩散蒸馏与上下文窗口稀疏注意力相结合，以降低二次复杂度。大量的实验证明了在不规则输入、大视点差距和长轨迹上的鲁棒和可扩展的重建。

🔬 方法详解

问题定义：论文旨在解决从稀疏、任意视角的图像中进行三维重建的问题。现有方法，特别是基于扩散模型的方法，通常依赖于少量输入帧作为条件，导致几何一致性差，难以扩展到大型或复杂场景。这些方法无法充分利用场景的全局信息，并且在视角变化较大时表现不佳。

核心思路：AnyRecon的核心思路是构建一个持久的全局场景记忆，并利用几何感知的条件策略来指导扩散模型的生成过程。通过维护一个捕获视图缓存，模型可以访问更丰富的场景信息，从而提高重建的几何一致性和鲁棒性。此外，通过几何驱动的捕获视图检索，模型可以更好地利用已有的几何信息来指导新视角的生成。

技术框架：AnyRecon的整体框架包括以下几个主要模块：1) 捕获视图缓存：用于存储已有的输入图像及其对应的几何信息。2) 全局场景记忆：基于捕获视图缓存构建，用于存储场景的全局信息。3) 几何感知条件模块：利用几何信息来指导扩散模型的生成过程。4) 扩散模型：用于生成新的视角图像。5) 重建模块：利用生成的视角图像和已有的输入图像进行三维重建。

关键创新：AnyRecon的关键创新在于以下几个方面：1) 提出了持久的全局场景记忆，可以存储和利用场景的全局信息。2) 引入了几何感知的条件策略，将生成和重建过程紧密结合。3) 结合了扩散蒸馏和稀疏注意力机制，提高了重建效率。与现有方法相比，AnyRecon能够处理更稀疏、更任意的输入，并且具有更好的几何一致性和可扩展性。

关键设计：在技术细节方面，AnyRecon采用了4步扩散蒸馏来加速生成过程，并使用上下文窗口稀疏注意力来降低计算复杂度。几何感知条件模块利用显式的3D几何记忆和几何驱动的捕获视图检索来指导生成过程。损失函数的设计也考虑了几何一致性，例如，使用了光度一致性损失和深度一致性损失来约束重建结果。

🖼️ 关键图片

📊 实验亮点

论文通过大量实验验证了AnyRecon的有效性。实验结果表明，AnyRecon在不规则输入、大视点差距和长轨迹上均能实现鲁棒和可扩展的重建。与现有方法相比，AnyRecon在重建质量和效率方面均有显著提升。具体的性能数据和对比基线在论文中有详细的展示。

🎯 应用场景

AnyRecon在增强现实、虚拟现实、机器人导航、自动驾驶等领域具有广泛的应用前景。它可以用于从手机拍摄的视频或图像中重建三维场景，为用户提供更沉浸式的体验。此外，它还可以用于机器人导航和自动驾驶，帮助机器人或车辆更好地理解周围环境。

📄 摘要（原文）

Sparse-view 3D reconstruction is essential for modeling scenes from casual captures, but remain challenging for non-generative reconstruction. Existing diffusion-based approaches mitigates this issues by synthesizing novel views, but they often condition on only one or two capture frames, which restricts geometric consistency and limits scalability to large or diverse scenes. We propose AnyRecon, a scalable framework for reconstruction from arbitrary and unordered sparse inputs that preserves explicit geometric control while supporting flexible conditioning cardinality. To support long-range conditioning, our method constructs a persistent global scene memory via a prepended capture view cache, and removes temporal compression to maintain frame-level correspondence under large viewpoint changes. Beyond better generative model, we also find that the interplay between generation and reconstruction is crucial for large-scale 3D scenes. Thus, we introduce a geometry-aware conditioning strategy that couples generation and reconstruction through an explicit 3D geometric memory and geometry-driven capture-view retrieval. To ensure efficiency, we combine 4-step diffusion distillation with context-window sparse attention to reduce quadratic complexity. Extensive experiments demonstrate robust and scalable reconstruction across irregular inputs, large viewpoint gaps, and long trajectories.

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理