Open-Vocabulary 3D Instruction Ambiguity Detection

📄 arXiv: 2601.05991v1 📥 PDF

作者: Jiayu Ding, Haoran Tang, Ge Li

分类: cs.AI

发布日期: 2026-01-09

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Ambi3D基准和AmbiVer框架,解决开放词汇3D指令歧义检测问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令歧义检测 3D场景理解 视觉-语言模型 具身智能 开放词汇 多视角学习 机器人交互

📋 核心要点

  1. 现有具身智能研究忽略了指令歧义问题,可能导致安全隐患,尤其是在高风险场景中。
  2. 提出AmbiVer框架,通过多视角视觉证据引导视觉-语言模型判断指令歧义性。
  3. 构建大规模Ambi3D基准测试,实验证明了任务的挑战性和AmbiVer框架的有效性。

📝 摘要(中文)

在安全攸关的领域,语言歧义可能导致严重后果。然而,大多数具身智能研究忽略了这一点,假设指令是清晰的,并专注于执行而非确认。为了解决这个关键的安全问题,我们首次定义了开放词汇3D指令歧义检测,这是一个全新的基础任务,模型必须确定指令在给定的3D场景中是否具有单一、明确的含义。为了支持这项研究,我们构建了Ambi3D,这是一个大规模的基准,包含700多个不同的3D场景和大约22k条指令。我们的分析揭示了一个令人惊讶的局限性:最先进的3D大型语言模型(LLM)难以可靠地确定指令是否含糊不清。为了应对这一挑战,我们提出了AmbiVer,一个两阶段框架,它从多个视图收集显式的视觉证据,并使用它来指导视觉-语言模型(VLM)判断指令的歧义性。大量的实验证明了我们任务的挑战性和AmbiVer的有效性,为更安全、更值得信赖的具身人工智能铺平了道路。

🔬 方法详解

问题定义:论文旨在解决开放词汇3D场景中指令歧义检测问题。现有方法通常假设指令是明确的,忽略了真实场景中指令可能存在多种解释的情况,这在安全攸关的应用中会带来潜在风险。因此,需要一种能够判断指令在特定3D场景中是否具有唯一明确含义的方法。

核心思路:论文的核心思路是利用多视角视觉信息来辅助判断指令的歧义性。通过从不同角度观察场景,可以更全面地理解场景中的物体和它们之间的关系,从而更好地判断指令是否指向了多个可能的对象或动作。这种方法模拟了人类通过观察来消除歧义的认知过程。

技术框架:AmbiVer框架包含两个主要阶段:1) 视觉证据收集阶段:从多个视角渲染3D场景,提取视觉特征,形成视觉证据。2) 歧义判断阶段:将指令和视觉证据输入视觉-语言模型(VLM),由VLM判断指令是否具有歧义性。整个流程旨在将视觉信息显式地融入到歧义判断过程中。

关键创新:该论文的关键创新在于提出了一个全新的任务——开放词汇3D指令歧义检测,并构建了相应的基准数据集Ambi3D。此外,AmbiVer框架通过显式地收集和利用多视角视觉证据来辅助歧义判断,这与以往依赖隐式视觉理解的方法不同。

关键设计:在视觉证据收集阶段,需要选择合适的视角数量和渲染方式。在歧义判断阶段,需要选择合适的视觉-语言模型,并设计合适的输入格式,将指令和视觉证据有效地融合。此外,损失函数的设计也至关重要,需要能够有效地训练模型区分歧义和非歧义指令。

📊 实验亮点

实验结果表明,现有的3D大型语言模型在Ambi3D基准上表现不佳,表明该任务具有挑战性。AmbiVer框架显著提高了歧义检测的准确率,证明了多视角视觉证据在解决指令歧义问题上的有效性。具体性能数据未知,但论文强调了AmbiVer相对于现有方法的显著提升。

🎯 应用场景

该研究成果可应用于机器人手术、自动驾驶、智能家居等领域。例如,在机器人手术中,可以利用该技术检测医生指令的歧义性,避免因指令误解而导致的手术失误。在自动驾驶中,可以检测乘客指令的歧义性,确保车辆按照乘客的意图行驶。该研究有助于提高人机交互的安全性与可靠性。

📄 摘要(原文)

In safety-critical domains, linguistic ambiguity can have severe consequences; a vague command like "Pass me the vial" in a surgical setting could lead to catastrophic errors. Yet, most embodied AI research overlooks this, assuming instructions are clear and focusing on execution rather than confirmation. To address this critical safety gap, we are the first to define Open-Vocabulary 3D Instruction Ambiguity Detection, a fundamental new task where a model must determine if a command has a single, unambiguous meaning within a given 3D scene. To support this research, we build Ambi3D, the large-scale benchmark for this task, featuring over 700 diverse 3D scenes and around 22k instructions. Our analysis reveals a surprising limitation: state-of-the-art 3D Large Language Models (LLMs) struggle to reliably determine if an instruction is ambiguous. To address this challenge, we propose AmbiVer, a two-stage framework that collects explicit visual evidence from multiple views and uses it to guide an vision-language model (VLM) in judging instruction ambiguity. Extensive experiments demonstrate the challenge of our task and the effectiveness of AmbiVer, paving the way for safer and more trustworthy embodied AI. Code and dataset available at https://jiayuding031020.github.io/ambi3d/.