Photorealistic Phantom Roads in Real Scenes: Disentangling 3D Hallucinations from Physical Geometry

📄 arXiv: 2512.15423v1 📥 PDF

作者: Hoang Nguyen, Xiaohao Xu, Xiaonan Huang

分类: cs.CV, cs.RO

发布日期: 2025-12-17


💡 一句话要点

提出Grounded Self-Distillation框架,解决单目深度估计中的3D幻觉问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单目深度估计 3D幻觉 知识蒸馏 平面约束 鲁棒性 自动驾驶 深度学习 基准测试

📋 核心要点

  1. 单目深度估计模型易受“3D Mirage”影响,即从平面但感知模糊的图像中产生虚假3D结构。
  2. 提出Grounded Self-Distillation方法,通过在幻觉区域强制执行平面约束,并利用知识蒸馏避免灾难性遗忘。
  3. 构建了3D-Mirage基准,并提出了基于拉普拉斯算子的评估框架,有效量化和缓解了3D幻觉问题。

📝 摘要(中文)

单目深度估计模型通过学习大规模语义先验实现了卓越的泛化能力,但也因此产生了一个关键漏洞:它们会从几何平面但感知上模糊的输入中幻觉出虚假的3D结构,我们称之为3D Mirage。本文提出了第一个端到端框架来探测、量化和抑制这种未被量化的安全风险。为了探测,我们提出了3D-Mirage,这是第一个包含真实世界幻觉(例如,街头艺术)的基准,具有精确的平面区域注释和上下文受限的裁剪。为了量化,我们提出了一个基于拉普拉斯算子的评估框架,包含两个指标:用于衡量虚假非平面性的偏差复合得分(DCS)和用于衡量上下文不稳定性的混淆复合得分(CCS)。为了抑制这种失败,我们引入了Grounded Self-Distillation,这是一种参数高效的策略,可以在幻觉ROI上进行平面约束,同时使用冻结的教师模型来保留背景知识,从而避免灾难性遗忘。我们的工作提供了诊断和缓解这种现象的基本工具,促使MDE评估从像素级精度转变为结构和上下文鲁棒性。我们的代码和基准将公开提供,以促进这个令人兴奋的研究方向。

🔬 方法详解

问题定义:论文旨在解决单目深度估计模型中存在的“3D Mirage”问题,即模型在处理几何平面但感知上存在歧义的图像时,会错误地生成虚假的3D结构。现有方法缺乏对这种现象的有效评估和抑制手段,导致模型在实际应用中存在安全隐患。

核心思路:论文的核心思路是通过引入平面约束来抑制模型对幻觉3D结构的生成。具体而言,通过Grounded Self-Distillation方法,在图像的幻觉区域强制执行平面约束,同时利用知识蒸馏技术,从一个冻结的教师模型中学习,以保留背景知识,避免灾难性遗忘。

技术框架:整体框架包含以下几个主要部分:1) 3D-Mirage基准数据集,用于探测和评估3D幻觉现象;2) 基于拉普拉斯算子的评估框架,包含DCS和CCS两个指标,用于量化虚假非平面性和上下文不稳定性;3) Grounded Self-Distillation模块,用于在幻觉区域强制执行平面约束,并利用知识蒸馏保留背景知识。

关键创新:论文的关键创新在于提出了Grounded Self-Distillation方法,该方法通过在幻觉区域进行平面约束,并结合知识蒸馏,有效地抑制了3D幻觉的产生,同时避免了灾难性遗忘。与现有方法相比,该方法能够更精确地控制模型的输出,提高模型的结构和上下文鲁棒性。

关键设计:Grounded Self-Distillation的关键设计包括:1) 使用平面损失函数来约束幻觉区域的深度估计,使其尽可能接近平面;2) 使用冻结的教师模型来提供背景知识,避免在训练过程中丢失重要的语义信息;3) 使用参数高效的蒸馏策略,减少计算开销,提高训练效率。具体的损失函数和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的Grounded Self-Distillation方法能够显著降低3D幻觉现象,在3D-Mirage基准上取得了最佳性能。DCS和CCS指标的降低表明,该方法有效地抑制了虚假非平面性和上下文不稳定性。与现有方法相比,该方法在结构和上下文鲁棒性方面有显著提升。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。通过抑制单目深度估计中的3D幻觉,可以提高这些系统对环境的感知准确性,从而增强其安全性和可靠性。例如,在自动驾驶中,可以避免因将街头艺术误判为真实障碍物而导致的错误决策。

📄 摘要(原文)

Monocular depth foundation models achieve remarkable generalization by learning large-scale semantic priors, but this creates a critical vulnerability: they hallucinate illusory 3D structures from geometrically planar but perceptually ambiguous inputs. We term this failure the 3D Mirage. This paper introduces the first end-to-end framework to probe, quantify, and tame this unquantified safety risk. To probe, we present 3D-Mirage, the first benchmark of real-world illusions (e.g., street art) with precise planar-region annotations and context-restricted crops. To quantify, we propose a Laplacian-based evaluation framework with two metrics: the Deviation Composite Score (DCS) for spurious non-planarity and the Confusion Composite Score (CCS) for contextual instability. To tame this failure, we introduce Grounded Self-Distillation, a parameter-efficient strategy that surgically enforces planarity on illusion ROIs while using a frozen teacher to preserve background knowledge, thus avoiding catastrophic forgetting. Our work provides the essential tools to diagnose and mitigate this phenomenon, urging a necessary shift in MDE evaluation from pixel-wise accuracy to structural and contextual robustness. Our code and benchmark will be publicly available to foster this exciting research direction.