Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

作者: Weijie Wang, Qihang Cao, Sensen Gao, Donny Y. Chen, Haofei Xu, Wenjing Bian, Songyou Peng, Tat-Jen Cham, Chuanxia Zheng, Andreas Geiger, Jianfei Cai, Jia-Wang Bian, Bohan Zhuang

分类: cs.CV, cs.AI, cs.GR

发布日期: 2026-04-15

备注: 67 pages, 395 references. Project page: https://ff3d-survey.github.io. Code: https://github.com/ziplab/Awesome-Feed-Forward-3D. This work has been submitted to Springer for possible publication

💡 一句话要点

提出面向前馈3D场景建模的问题驱动视角，实现高效通用的三维重建。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 三维重建 前馈网络 场景建模 计算机视觉 深度学习

📋 核心要点

传统3D重建方法依赖于耗时的单场景优化或特定类别训练，泛化能力和效率受限。
本文提出了一种新的分类法，从模型设计策略角度分析前馈3D重建方法，聚焦特征增强、几何感知等关键问题。
本文全面回顾了相关基准数据集和实际应用，并对未来发展方向进行了展望，为后续研究提供指导。

📝 摘要（中文）

本文提出了一种针对前馈3D场景建模的综述，旨在解决从2D输入重建3D表示这一计算机视觉和图形学中的基础问题。传统方法虽然精度高，但受限于缓慢的单场景优化或特定类别训练，阻碍了实际部署和扩展。前馈方法通过单次前向传播将图像直接映射到3D表示，实现了高效重建和鲁棒的跨场景泛化。该综述的核心观察是：尽管几何输出表示多样，但现有前馈方法共享相似的高层架构模式。因此，本文抽象了表示差异，专注于模型设计，提出了一个以模型设计策略为中心的新分类法，将研究方向组织为五个关键问题：特征增强、几何感知、模型效率、增强策略和时序感知模型。此外，本文还全面回顾了相关基准和数据集，并广泛讨论和分类了基于前馈3D模型的实际应用，最后概述了未来方向，以解决可扩展性、评估标准和世界建模等开放性挑战。

🔬 方法详解

问题定义：现有3D重建方法，特别是传统方法，通常需要对每个场景进行单独优化，计算成本高昂，难以扩展到大规模场景。此外，一些方法依赖于特定类别的训练数据，泛化能力有限。因此，如何实现高效、通用的3D重建是一个关键问题。

核心思路：本文的核心思路是跳出具体3D表示形式的限制，从模型设计的角度对现有前馈3D重建方法进行分析和归纳。通过抽象出通用的架构模式和设计策略，提出了一个以问题为驱动的分类法，从而更好地理解和指导该领域的研究。

技术框架：本文的框架主要包括三个部分：一是分析现有前馈3D重建方法的架构模式，包括图像特征提取、多视图信息融合和几何感知设计；二是提出一个以模型设计策略为中心的分类法，将研究方向组织为五个关键问题；三是全面回顾相关基准数据集和实际应用，并展望未来发展方向。

关键创新：本文最重要的创新在于提出了一个以问题为驱动的分类法，该分类法关注模型设计策略，而非具体的3D表示形式。这种分类方法能够更好地揭示不同方法之间的联系和差异，并为未来的研究提供更清晰的指导。

关键设计：本文的关键设计在于五个关键问题的划分：特征增强旨在提高图像特征的表达能力；几何感知旨在利用几何先验知识指导模型学习；模型效率旨在降低计算成本和提高推理速度；增强策略旨在提高模型的鲁棒性和泛化能力；时序感知模型旨在处理动态场景的3D重建。

🖼️ 关键图片

📊 实验亮点

本文通过对现有前馈3D重建方法的分析和归纳，提出了一个以问题为驱动的分类法，为该领域的研究提供了一个新的视角。该分类法能够帮助研究人员更好地理解不同方法之间的联系和差异，并为未来的研究提供更清晰的指导。此外，本文还全面回顾了相关基准数据集和实际应用，为研究人员提供了宝贵的资源。

🎯 应用场景

该研究成果可广泛应用于机器人导航、自动驾驶、虚拟现实、增强现实、游戏开发等领域。高效、通用的3D重建能力能够帮助机器人更好地理解周围环境，提高自动驾驶系统的安全性，并为用户提供更沉浸式的虚拟现实体验。此外，该研究还有助于推动三维视觉技术在工业自动化、城市规划等领域的应用。

📄 摘要（原文）

Reconstructing 3D representations from 2D inputs is a fundamental task in computer vision and graphics, serving as a cornerstone for understanding and interacting with the physical world. While traditional methods achieve high fidelity, they are limited by slow per-scene optimization or category-specific training, which hinders their practical deployment and scalability. Hence, generalizable feed-forward 3D reconstruction has witnessed rapid development in recent years. By learning a model that maps images directly to 3D representations in a single forward pass, these methods enable efficient reconstruction and robust cross-scene generalization. Our survey is motivated by a critical observation: despite the diverse geometric output representations, ranging from implicit fields to explicit primitives, existing feed-forward approaches share similar high-level architectural patterns, such as image feature extraction backbones, multi-view information fusion mechanisms, and geometry-aware design principles. Consequently, we abstract away from these representation differences and instead focus on model design, proposing a novel taxonomy centered on model design strategies that are agnostic to the output format. Our proposed taxonomy organizes the research directions into five key problems that drive recent research development: feature enhancement, geometry awareness, model efficiency, augmentation strategies and temporal-aware models. To support this taxonomy with empirical grounding and standardized evaluation, we further comprehensively review related benchmarks and datasets, and extensively discuss and categorize real-world applications based on feed-forward 3D models. Finally, we outline future directions to address open challenges such as scalability, evaluation standards, and world modeling.

Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理