Can These Views Be One Scene? Evaluating Multiview 3D Consistency when 3D Foundation Models Hallucinate

作者: Soumava Paul, Prakhar Kaushik, Alan Yuille

分类: cs.CV

发布日期: 2026-05-18

备注: Project Page at https://mvp18.github.io/3d-consistency-metrics/

💡 一句话要点

提出多视角3D一致性评估基准，揭示并缓解3D基础模型幻觉问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多视角三维重建 三维一致性评估 神经渲染 几何验证 鲁棒性 幻觉 COLMAP

📋 核心要点

现有3D一致性评估方法在处理包含伪影、噪声等异常输入时表现不佳，容易给出虚高评分。
论文提出一个受控鲁棒性基准enchmark，并设计参数化指标族，用于分析和提升多视角3D一致性评估的可靠性。
实验表明，现有神经重建方法存在幻觉现象，而基于COLMAP的指标与人类判断的相关性显著提高。

📝 摘要（中文）

多视角3D评估通常假设输入图像是对同一静态3D场景的观测。然而，这种假设在NVS和稀疏视角重建中可能失效：输入或生成的输出可能包含伪影、离群帧、重复视角或噪声，但仍然获得较高的3D一致性分数。现有的基于参考的指标需要ground truth，而无ground truth的指标（如MEt3R）依赖于学习到的重建backbone，其失效模式难以描述。本文通过比较神经重建先验与经典几何验证来研究这一可靠性问题。我们引入了enchmark，一个用于多视角3D一致性的受控鲁棒性基准，以及一个将神经指标分解为backbone、残差和聚合组件的参数化族。该族恢复了MEt3R，并产生了鲁棒性高达3倍的变体。我们的分析表明，VGGT、MASt3R、DUSt3R和Fast3R可以为不相关的场景、重复图像和随机噪声幻觉出密集的几何体和跨视角支持。我们引入了基于COLMAP的指标，该指标使用匹配、配准、密集支持和重建失败作为failure-aware一致性信号。在真实的NVS输出和结构化的人工研究中，这些指标与人类判断的相关性比MEt3R高出4倍。

🔬 方法详解

问题定义：现有基于学习的3D一致性评估指标，如MEt3R，依赖于神经重建backbone，当输入包含噪声、重复图像或不相关场景时，这些backbone可能会产生幻觉，导致评估结果不可靠。因此，需要一种更鲁棒的评估方法，能够准确识别和惩罚这些不一致性。

核心思路：论文的核心思路是将神经重建先验与经典的几何验证方法相结合，利用几何方法的鲁棒性来弥补神经方法的不足。同时，通过构建一个可控的鲁棒性基准，系统地评估和比较不同方法的性能，并分析其失效模式。

技术框架：论文主要包含以下几个部分：1) 构建了一个名为enchmark的受控鲁棒性基准，用于评估多视角3D一致性；2) 提出了一个参数化的指标族，可以将神经指标分解为backbone、残差和聚合组件，从而更好地理解其行为；3) 开发了基于COLMAP的指标，利用几何信息来提高鲁棒性；4) 通过实验验证了所提出方法的有效性。

关键创新：论文的关键创新在于：1) 提出了一个用于多视角3D一致性评估的受控鲁棒性基准；2) 将神经重建先验与经典几何验证相结合，提高了评估的鲁棒性；3) 开发了基于COLMAP的failure-aware一致性信号，能够更准确地识别和惩罚不一致性。

关键设计：enchmark基准包含多种类型的噪声和异常输入，例如重复图像、不相关场景和随机噪声。参数化指标族允许研究人员探索不同backbone、残差和聚合策略对评估结果的影响。基于COLMAP的指标利用了COLMAP的匹配、配准和重建失败等信息，这些信息可以作为一致性的强有力信号。具体参数设置和损失函数细节在论文正文中进行了详细描述，此处未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的神经重建方法在处理异常输入时容易产生幻觉。通过引入基于COLMAP的指标，与人类判断的相关性比MEt3R提高了4倍。参数化指标族分析表明，通过调整backbone、残差和聚合组件，可以显著提高评估的鲁棒性。在enchmark基准上，提出的方法取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于神经渲染（NVS）、三维重建、机器人视觉等领域，提高三维场景理解的可靠性。更鲁棒的3D一致性评估指标有助于提升三维重建算法的性能，并减少幻觉等问题，从而改善用户体验和安全性。未来，该方法可以扩展到其他三维视觉任务，例如三维目标检测和三维场景分割。

📄 摘要（原文）

Multiview 3D evaluation assumes that the images being scored are observations of one static 3D scene. This assumption can fail in NVS and sparse-view reconstruction: inputs or generated outputs may contain artifacts, outlier frames, repeated views, or noise, yet still receive high 3D consistency scores. Existing reference-based metrics require ground truth, while ground-truth-free metrics such as MEt3R depend on learned reconstruction backbones whose failure modes are poorly characterized. We study this reliability problem by comparing neural reconstruction priors with classical geometric verification. We introduce \benchmark, a controlled robustness benchmark for multiview 3D consistency, and a parametric family that decomposes neural metrics into backbone, residual, and aggregation components. This family recovers MEt3R and yields variants up to $3\times$ more robust. Our analysis shows that VGGT, MASt3R, DUSt3R, and Fast3R can hallucinate dense geometry and cross-view support for unrelated scenes, repeated images, and random noise. We introduce COLMAP-based metrics that use matches, registration, dense support, and reconstruction failure as failure-aware consistency signals. On real NVS outputs and a structured human study, these metrics achieve up to $4\times$ higher correlation with human judgments than MEt3R.

Can These Views Be One Scene? Evaluating Multiview 3D Consistency when 3D Foundation Models Hallucinate

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理