3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

作者: Makanjuola Ogunleye, Eman Abdelrahman, Ismini Lourentzou

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2026-04-09

备注: 8 pages, 6 figures, Accepted at IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 2026

💡 一句话要点

提出3D-VCD，通过视觉对比解码缓解3D具身智能体中的幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D具身智能体 幻觉缓解 视觉对比解码 3D场景图 多模态模型

📋 核心要点

现有幻觉缓解方法主要针对2D视觉-语言任务，无法有效解决3D具身智能体中因对象、空间和几何关系产生的幻觉。
3D-VCD通过对比原始和扰动后的3D场景，抑制对场景证据不敏感的token，从而减少语言先验带来的幻觉。
实验表明，3D-VCD在3D-POPE和HEAL基准测试中，无需重新训练即可持续提升具身智能体的推理能力。

📝 摘要（中文）

大型多模态模型越来越多地被用作在3D环境中运行的具身智能体的推理核心，但它们仍然容易产生幻觉，从而导致不安全和无根据的决策。现有的推理时幻觉缓解方法主要针对2D视觉-语言设置，无法转移到具身3D推理，因为后者中的失败源于对象存在、空间布局和几何基础，而不是像素级的不一致。我们提出了3D-VCD，这是第一个用于缓解3D具身智能体中幻觉的推理时视觉对比解码框架。3D-VCD通过对以对象为中心的表示应用语义和几何扰动（例如类别替换以及坐标或范围破坏）来构建扭曲的3D场景图。通过对比原始和扭曲的3D上下文下的预测，我们的方法抑制对有根据的场景证据不敏感的token，这些token很可能由语言先验驱动。我们在3D-POPE和HEAL基准上评估了3D-VCD，结果表明它在没有任何重新训练的情况下始终如一地改进了有根据的推理，从而确立了在结构化3D表示上进行推理时对比解码是实现更可靠的具身智能的有效且实用的途径。

🔬 方法详解

问题定义：现有的大型多模态模型在3D具身智能体中应用时，容易产生幻觉，导致智能体做出不安全或无根据的决策。现有的幻觉缓解方法主要集中在2D视觉-语言任务上，无法有效解决3D场景中由于对象存在、空间布局和几何关系等因素引起的幻觉问题。这些方法无法直接迁移到3D具身智能体中，限制了其在复杂3D环境中的应用。

核心思路：3D-VCD的核心思想是通过视觉对比解码来抑制模型中的幻觉。具体来说，该方法通过对比原始3D场景和经过扰动后的3D场景，来识别和抑制那些对场景证据不敏感的token。这些token很可能受到语言先验的影响，从而导致幻觉。通过这种对比学习的方式，模型可以更加关注场景中的真实信息，从而减少幻觉的产生。

技术框架：3D-VCD框架主要包含以下几个步骤：1) 构建3D场景图，以对象为中心表示场景信息。2) 对3D场景图进行扰动，包括语义扰动（如类别替换）和几何扰动（如坐标或范围破坏）。3) 使用大型多模态模型对原始场景和扰动后的场景进行推理，得到预测结果。4) 通过对比原始场景和扰动后场景的预测结果，计算对比损失，并利用该损失来抑制对场景证据不敏感的token。

关键创新：3D-VCD的关键创新在于它首次将视觉对比解码应用于3D具身智能体的幻觉缓解。与现有的2D方法不同，3D-VCD直接在3D场景图上进行操作，能够更好地捕捉3D场景中的空间关系和几何信息。此外，3D-VCD通过引入语义和几何扰动，能够更有效地识别和抑制由语言先验引起的幻觉。

关键设计：3D-VCD的关键设计包括：1) 3D场景图的构建方式，需要选择合适的3D表示方法来捕捉场景信息。2) 扰动策略的设计，需要选择合适的语义和几何扰动方式，以有效地破坏场景的真实性。3) 对比损失函数的选择，需要选择合适的损失函数来衡量原始场景和扰动后场景预测结果之间的差异。具体的参数设置和网络结构取决于所使用的大型多模态模型和3D场景表示方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，3D-VCD在3D-POPE和HEAL基准测试中均取得了显著的性能提升。具体来说，3D-VCD在无需重新训练的情况下，能够持续改进有根据的推理能力，证明了在结构化3D表示上进行推理时对比解码是缓解幻觉的有效方法。这些结果表明，3D-VCD是一种实用且有效的幻觉缓解方法，可以应用于各种3D具身智能体。

🎯 应用场景

3D-VCD可应用于各种需要3D具身智能体的场景，例如家庭机器人、自动驾驶、虚拟现实和增强现实等。通过减少幻觉，可以提高智能体在这些场景中的安全性和可靠性，使其能够更好地理解和与3D环境交互。该研究为开发更可靠的具身智能系统奠定了基础，并有望推动相关领域的发展。

📄 摘要（原文）

Large multimodal models are increasingly used as the reasoning core of embodied agents operating in 3D environments, yet they remain prone to hallucinations that can produce unsafe and ungrounded decisions. Existing inference-time hallucination mitigation methods largely target 2D vision-language settings and do not transfer to embodied 3D reasoning, where failures arise from object presence, spatial layout, and geometric grounding rather than pixel-level inconsistencies. We introduce 3D-VCD, the first inference-time visual contrastive decoding framework for hallucination mitigation in 3D embodied agents. 3D-VCD constructs a distorted 3D scene graph by applying semantic and geometric perturbations to object-centric representations, such as category substitutions and coordinate or extent corruption. By contrasting predictions under the original and distorted 3D contexts, our method suppresses tokens that are insensitive to grounded scene evidence and are therefore likely driven by language priors. We evaluate 3D-VCD on the 3D-POPE and HEAL benchmarks and show that it consistently improves grounded reasoning without any retraining, establishing inference-time contrastive decoding over structured 3D representations as an effective and practical route to more reliable embodied intelligence.

3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理