UniQueR: Unified Query-based Feedforward 3D Reconstruction

📄 arXiv: 2603.22851v1 📥 PDF

作者: Chensheng Peng, Quentin Herau, Jiezhi Yang, Yichen Xie, Yihan Hu, Wenzhao Zheng, Matthew Strong, Masayoshi Tomizuka, Wei Zhan

分类: cs.CV, cs.AI

发布日期: 2026-03-24


💡 一句话要点

UniQueR:一种用于高效精确三维重建的统一查询式前馈框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 神经渲染 前馈网络 查询式学习 多视角几何

📋 核心要点

  1. 现有前馈3D重建方法主要依赖2.5D表示,难以处理遮挡区域,限制了重建的完整性和准确性。
  2. UniQueR通过学习一组3D锚点作为几何查询,直接在3D空间中推理场景结构,从而解决遮挡问题。
  3. 实验表明,UniQueR在渲染质量和几何精度上超越了现有前馈方法,同时显著降低了计算成本。

📝 摘要(中文)

本文提出UniQueR,一个统一的、基于查询的前馈框架,用于从无位姿图像中进行高效且精确的3D重建。现有的前馈模型,如DUSt3R、VGGT和AnySplat,通常预测逐像素的点云图或像素对齐的高斯分布,本质上仍然是2.5D的,并且仅限于可见表面。相比之下,UniQueR将重建问题建模为一个稀疏的3D查询推理问题。我们的模型学习一组紧凑的3D锚点,作为显式的几何查询,使网络能够在一次前向传递中推断场景结构,包括遮挡区域的几何信息。每个查询直接在全局3D空间(而不是每帧相机空间)中编码空间和外观先验,并生成一组用于可微渲染的3D高斯分布。通过利用跨多视角特征的统一查询交互和解耦的交叉注意力设计,UniQueR实现了强大的几何表达能力,同时显著降低了内存和计算成本。在Mip-NeRF 360和VR-NeRF上的实验表明,UniQueR在渲染质量和几何精度方面都超过了最先进的前馈方法,并且使用的图元数量比密集方法少一个数量级。

🔬 方法详解

问题定义:现有前馈3D重建方法,如DUSt3R、VGGT和AnySplat,通常预测逐像素的点云图或像素对齐的高斯分布,本质上是2.5D的,只能重建可见表面,无法处理遮挡区域的几何信息。这限制了重建的完整性和几何精度。

核心思路:UniQueR的核心思路是将3D重建问题建模为一个稀疏的3D查询推理问题。通过学习一组紧凑的3D锚点作为显式的几何查询,网络可以直接在3D空间中推理场景结构,包括遮挡区域的几何信息。这种方法避免了2.5D表示的局限性,能够更完整地重建场景。

技术框架:UniQueR的整体框架包括以下几个主要模块:1) 3D锚点初始化:初始化一组3D锚点,作为几何查询。2) 特征提取:从多视角图像中提取特征。3) 跨视角特征交互:利用统一查询交互和解耦交叉注意力机制,将3D锚点与多视角特征进行融合。4) 3D高斯生成:每个3D锚点生成一组3D高斯分布,用于可微渲染。5) 渲染和优化:通过可微渲染将3D高斯分布投影到图像平面,并与真实图像进行比较,优化3D锚点的位置和外观。

关键创新:UniQueR的关键创新在于其基于查询的3D重建方法。与现有方法不同,UniQueR不依赖于2.5D表示,而是直接在3D空间中进行推理。这种方法能够更好地处理遮挡区域,并实现更完整的3D重建。此外,UniQueR还采用了统一查询交互和解耦交叉注意力机制,提高了特征融合的效率和效果。

关键设计:UniQueR的关键设计包括:1) 3D锚点的数量:需要根据场景的复杂程度进行调整,以保证重建的精度和效率。2) 解耦交叉注意力机制:将注意力机制分解为空间注意力和通道注意力,提高了特征融合的效率。3) 损失函数:包括渲染损失和几何损失,用于优化3D锚点的位置和外观。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniQueR在Mip-NeRF 360和VR-NeRF数据集上进行了实验,结果表明,UniQueR在渲染质量和几何精度方面都超过了最先进的前馈方法。例如,在Mip-NeRF 360数据集上,UniQueR的PSNR指标比现有方法提高了约2dB,并且使用的图元数量比密集方法少一个数量级。

🎯 应用场景

UniQueR在机器人导航、自动驾驶、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于构建场景的三维模型,帮助机器人理解周围环境,实现自主导航。在自动驾驶中,UniQueR可以用于重建车辆周围的场景,提高驾驶安全性。在VR/AR中,UniQueR可以用于创建逼真的虚拟场景,提升用户体验。

📄 摘要(原文)

We present UniQueR, a unified query-based feedforward framework for efficient and accurate 3D reconstruction from unposed images. Existing feedforward models such as DUSt3R, VGGT, and AnySplat typically predict per-pixel point maps or pixel-aligned Gaussians, which remain fundamentally 2.5D and limited to visible surfaces. In contrast, UniQueR formulates reconstruction as a sparse 3D query inference problem. Our model learns a compact set of 3D anchor points that act as explicit geometric queries, enabling the network to infer scene structure, including geometry in occluded regions--in a single forward pass. Each query encodes spatial and appearance priors directly in global 3D space (instead of per-frame camera space) and spawns a set of 3D Gaussians for differentiable rendering. By leveraging unified query interactions across multi-view features and a decoupled cross-attention design, UniQueR achieves strong geometric expressiveness while substantially reducing memory and computational cost. Experiments on Mip-NeRF 360 and VR-NeRF demonstrate that UniQueR surpasses state-of-the-art feedforward methods in both rendering quality and geometric accuracy, using an order of magnitude fewer primitives than dense alternatives.