UniQueR: Unified Query-based Feedforward 3D Reconstruction

作者: Chensheng Peng, Quentin Herau, Jiezhi Yang, Yichen Xie, Yihan Hu, Wenzhao Zheng, Matthew Strong, Masayoshi Tomizuka, Wei Zhan

分类: cs.CV, cs.AI

发布日期: 2026-03-24

💡 一句话要点

UniQueR：一种用于高效精确三维重建的统一查询式前馈框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 三维重建 神经渲染 前馈网络 查询式学习 多视角几何

📋 核心要点

现有前馈3D重建方法主要依赖2.5D表示，难以处理遮挡区域，限制了重建的完整性和准确性。
UniQueR通过学习一组3D锚点作为几何查询，直接在3D空间中推理场景结构，从而解决遮挡问题。
实验表明，UniQueR在渲染质量和几何精度上超越了现有前馈方法，同时显著降低了计算成本。

📝 摘要（中文）

本文提出UniQueR，一个统一的、基于查询的前馈框架，用于从无位姿图像中进行高效且精确的3D重建。现有的前馈模型，如DUSt3R、VGGT和AnySplat，通常预测逐像素的点云图或像素对齐的高斯分布，本质上仍然是2.5D的，并且仅限于可见表面。相比之下，UniQueR将重建问题建模为一个稀疏的3D查询推理问题。我们的模型学习一组紧凑的3D锚点，作为显式的几何查询，使网络能够在一次前向传递中推断场景结构，包括遮挡区域的几何信息。每个查询直接在全局3D空间（而不是每帧相机空间）中编码空间和外观先验，并生成一组用于可微渲染的3D高斯分布。通过利用跨多视角特征的统一查询交互和解耦的交叉注意力设计，UniQueR实现了强大的几何表达能力，同时显著降低了内存和计算成本。在Mip-NeRF 360和VR-NeRF上的实验表明，UniQueR在渲染质量和几何精度方面都超过了最先进的前馈方法，并且使用的图元数量比密集方法少一个数量级。

🔬 方法详解

问题定义：现有前馈3D重建方法，如DUSt3R、VGGT和AnySplat，通常预测逐像素的点云图或像素对齐的高斯分布，本质上是2.5D的，只能重建可见表面，无法处理遮挡区域的几何信息。这限制了重建的完整性和几何精度。

核心思路：UniQueR的核心思路是将3D重建问题建模为一个稀疏的3D查询推理问题。通过学习一组紧凑的3D锚点作为显式的几何查询，网络可以直接在3D空间中推理场景结构，包括遮挡区域的几何信息。这种方法避免了2.5D表示的局限性，能够更完整地重建场景。

技术框架：UniQueR的整体框架包括以下几个主要模块：1) 3D锚点初始化：初始化一组3D锚点，作为几何查询。2) 特征提取：从多视角图像中提取特征。3) 跨视角特征交互：利用统一查询交互和解耦交叉注意力机制，将3D锚点与多视角特征进行融合。4) 3D高斯生成：每个3D锚点生成一组3D高斯分布，用于可微渲染。5) 渲染和优化：通过可微渲染将3D高斯分布投影到图像平面，并与真实图像进行比较，优化3D锚点的位置和外观。

关键创新：UniQueR的关键创新在于其基于查询的3D重建方法。与现有方法不同，UniQueR不依赖于2.5D表示，而是直接在3D空间中进行推理。这种方法能够更好地处理遮挡区域，并实现更完整的3D重建。此外，UniQueR还采用了统一查询交互和解耦交叉注意力机制，提高了特征融合的效率和效果。

关键设计：UniQueR的关键设计包括：1) 3D锚点的数量：需要根据场景的复杂程度进行调整，以保证重建的精度和效率。2) 解耦交叉注意力机制：将注意力机制分解为空间注意力和通道注意力，提高了特征融合的效率。3) 损失函数：包括渲染损失和几何损失，用于优化3D锚点的位置和外观。

🖼️ 关键图片

📊 实验亮点

UniQueR在Mip-NeRF 360和VR-NeRF数据集上进行了实验，结果表明，UniQueR在渲染质量和几何精度方面都超过了最先进的前馈方法。例如，在Mip-NeRF 360数据集上，UniQueR的PSNR指标比现有方法提高了约2dB，并且使用的图元数量比密集方法少一个数量级。

🎯 应用场景

UniQueR在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于构建场景的三维模型，帮助机器人理解周围环境，实现自主导航。在自动驾驶中，UniQueR可以用于重建车辆周围的场景，提高驾驶安全性。在VR/AR中，UniQueR可以用于创建逼真的虚拟场景，提升用户体验。

📄 摘要（原文）

We present UniQueR, a unified query-based feedforward framework for efficient and accurate 3D reconstruction from unposed images. Existing feedforward models such as DUSt3R, VGGT, and AnySplat typically predict per-pixel point maps or pixel-aligned Gaussians, which remain fundamentally 2.5D and limited to visible surfaces. In contrast, UniQueR formulates reconstruction as a sparse 3D query inference problem. Our model learns a compact set of 3D anchor points that act as explicit geometric queries, enabling the network to infer scene structure, including geometry in occluded regions--in a single forward pass. Each query encodes spatial and appearance priors directly in global 3D space (instead of per-frame camera space) and spawns a set of 3D Gaussians for differentiable rendering. By leveraging unified query interactions across multi-view features and a decoupled cross-attention design, UniQueR achieves strong geometric expressiveness while substantially reducing memory and computational cost. Experiments on Mip-NeRF 360 and VR-NeRF demonstrate that UniQueR surpasses state-of-the-art feedforward methods in both rendering quality and geometric accuracy, using an order of magnitude fewer primitives than dense alternatives.

UniQueR: Unified Query-based Feedforward 3D Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理