Photorealistic Phantom Roads in Real Scenes: Disentangling 3D Hallucinations from Physical Geometry

作者: Hoang Nguyen, Xiaohao Xu, Xiaonan Huang

分类: cs.CV, cs.RO

发布日期: 2025-12-17

💡 一句话要点

提出Grounded Self-Distillation框架，解决单目深度估计中的3D幻觉问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单目深度估计 3D幻觉 知识蒸馏 平面约束 鲁棒性 自动驾驶 深度学习 基准测试

📋 核心要点

单目深度估计模型易受“3D Mirage”影响，即从平面但感知模糊的图像中产生虚假3D结构。
提出Grounded Self-Distillation方法，通过在幻觉区域强制执行平面约束，并利用知识蒸馏避免灾难性遗忘。
构建了3D-Mirage基准，并提出了基于拉普拉斯算子的评估框架，有效量化和缓解了3D幻觉问题。

📝 摘要（中文）

单目深度估计模型通过学习大规模语义先验实现了卓越的泛化能力，但也因此产生了一个关键漏洞：它们会从几何平面但感知上模糊的输入中幻觉出虚假的3D结构，我们称之为3D Mirage。本文提出了第一个端到端框架来探测、量化和抑制这种未被量化的安全风险。为了探测，我们提出了3D-Mirage，这是第一个包含真实世界幻觉（例如，街头艺术）的基准，具有精确的平面区域注释和上下文受限的裁剪。为了量化，我们提出了一个基于拉普拉斯算子的评估框架，包含两个指标：用于衡量虚假非平面性的偏差复合得分（DCS）和用于衡量上下文不稳定性的混淆复合得分（CCS）。为了抑制这种失败，我们引入了Grounded Self-Distillation，这是一种参数高效的策略，可以在幻觉ROI上进行平面约束，同时使用冻结的教师模型来保留背景知识，从而避免灾难性遗忘。我们的工作提供了诊断和缓解这种现象的基本工具，促使MDE评估从像素级精度转变为结构和上下文鲁棒性。我们的代码和基准将公开提供，以促进这个令人兴奋的研究方向。

🔬 方法详解

问题定义：论文旨在解决单目深度估计模型中存在的“3D Mirage”问题，即模型在处理几何平面但感知上存在歧义的图像时，会错误地生成虚假的3D结构。现有方法缺乏对这种现象的有效评估和抑制手段，导致模型在实际应用中存在安全隐患。

核心思路：论文的核心思路是通过引入平面约束来抑制模型对幻觉3D结构的生成。具体而言，通过Grounded Self-Distillation方法，在图像的幻觉区域强制执行平面约束，同时利用知识蒸馏技术，从一个冻结的教师模型中学习，以保留背景知识，避免灾难性遗忘。

技术框架：整体框架包含以下几个主要部分：1) 3D-Mirage基准数据集，用于探测和评估3D幻觉现象；2) 基于拉普拉斯算子的评估框架，包含DCS和CCS两个指标，用于量化虚假非平面性和上下文不稳定性；3) Grounded Self-Distillation模块，用于在幻觉区域强制执行平面约束，并利用知识蒸馏保留背景知识。

关键创新：论文的关键创新在于提出了Grounded Self-Distillation方法，该方法通过在幻觉区域进行平面约束，并结合知识蒸馏，有效地抑制了3D幻觉的产生，同时避免了灾难性遗忘。与现有方法相比，该方法能够更精确地控制模型的输出，提高模型的结构和上下文鲁棒性。

关键设计：Grounded Self-Distillation的关键设计包括：1) 使用平面损失函数来约束幻觉区域的深度估计，使其尽可能接近平面；2) 使用冻结的教师模型来提供背景知识，避免在训练过程中丢失重要的语义信息；3) 使用参数高效的蒸馏策略，减少计算开销，提高训练效率。具体的损失函数和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的Grounded Self-Distillation方法能够显著降低3D幻觉现象，在3D-Mirage基准上取得了最佳性能。DCS和CCS指标的降低表明，该方法有效地抑制了虚假非平面性和上下文不稳定性。与现有方法相比，该方法在结构和上下文鲁棒性方面有显著提升。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、增强现实等领域。通过抑制单目深度估计中的3D幻觉，可以提高这些系统对环境的感知准确性，从而增强其安全性和可靠性。例如，在自动驾驶中，可以避免因将街头艺术误判为真实障碍物而导致的错误决策。

📄 摘要（原文）

Monocular depth foundation models achieve remarkable generalization by learning large-scale semantic priors, but this creates a critical vulnerability: they hallucinate illusory 3D structures from geometrically planar but perceptually ambiguous inputs. We term this failure the 3D Mirage. This paper introduces the first end-to-end framework to probe, quantify, and tame this unquantified safety risk. To probe, we present 3D-Mirage, the first benchmark of real-world illusions (e.g., street art) with precise planar-region annotations and context-restricted crops. To quantify, we propose a Laplacian-based evaluation framework with two metrics: the Deviation Composite Score (DCS) for spurious non-planarity and the Confusion Composite Score (CCS) for contextual instability. To tame this failure, we introduce Grounded Self-Distillation, a parameter-efficient strategy that surgically enforces planarity on illusion ROIs while using a frozen teacher to preserve background knowledge, thus avoiding catastrophic forgetting. Our work provides the essential tools to diagnose and mitigate this phenomenon, urging a necessary shift in MDE evaluation from pixel-wise accuracy to structural and contextual robustness. Our code and benchmark will be publicly available to foster this exciting research direction.

Photorealistic Phantom Roads in Real Scenes: Disentangling 3D Hallucinations from Physical Geometry

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理