IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes

📄 arXiv: 2503.17406v1 📥 PDF

作者: Haochen Zhang, Nader Zantout, Pujith Kachana, Ji Zhang, Wenshan Wang

分类: cs.CV, cs.RO

发布日期: 2025-03-20

备注: Accepted to ICRA 2025. Code available at https://github.com/HaochenZ11/IRef-VLA. arXiv admin note: text overlap with arXiv:2411.03540

🔗 代码/项目: GITHUB


💡 一句话要点

IRef-VLA:用于三维场景中交互式指代定位的基准数据集,关注不完美语言

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代定位 三维场景理解 自然语言导航 不完美语言 基准数据集

📋 核心要点

  1. 现有方法在三维场景中进行自然语言导航时,难以处理不完美或与场景不符的语言指令。
  2. 论文提出 IRef-VLA 基准数据集,包含大量真实世界场景和不完美语言描述,用于训练和评估交互式指代定位模型。
  3. 通过在 IRef-VLA 上评估现有模型,建立了性能基线,并开发了基于场景图的搜索方法作为性能上限参考。

📝 摘要(中文)

随着大型语言模型、视觉-语言模型和其他通用基础模型的兴起,多模态、多任务机器人技术在自然语言输入下于多样化环境中运行的潜力日益增长。其中一个应用是使用自然语言指令进行室内导航。然而,尽管最近取得了进展,但由于所需的三维空间推理和语义理解,这个问题仍然具有挑战性。此外,所使用的语言可能是不完美的或与场景不一致,进一步使任务复杂化。为了应对这一挑战,我们整理了一个基准数据集 IRef-VLA,用于在具有不完美参考的三维场景中进行交互式指代视觉和语言引导的动作。IRef-VLA 是最大的真实世界指代定位任务数据集,包含来自现有数据集的超过 1.15 万个扫描的 3D 房间、760 万个启发式生成的语义关系和 470 万个指代表述。我们的数据集还包含语义对象和房间注释、场景图、可导航自由空间注释,并使用语言存在缺陷或歧义的语句进行扩充。我们通过使用最先进的模型进行评估以获得性能基线来验证数据集的通用性,并开发了一个图搜索基线来演示使用场景图知识的性能界限和替代方案的生成。通过这个基准,我们旨在为 3D 场景理解提供资源,以帮助开发稳健的交互式导航系统。数据集和所有源代码已公开发布。

🔬 方法详解

问题定义:论文旨在解决三维场景中,机器人如何根据包含不完美或歧义信息的自然语言指令,准确地定位和识别目标对象的问题。现有方法在处理真实世界场景中常见的语言噪声和语义歧义时表现不佳,限制了其在实际应用中的可用性。

核心思路:论文的核心思路是构建一个大规模、多样化的基准数据集,包含各种类型的语言不完美情况,例如指代不明、描述错误等。通过在该数据集上训练和评估模型,可以提高模型对不完美语言的鲁棒性和泛化能力。同时,利用场景图知识来辅助理解和推理,提高定位的准确性。

技术框架:IRef-VLA数据集的构建包括以下几个主要阶段:1) 从现有3D扫描数据集(如Matterport3D)中收集房间数据;2) 对场景中的对象和房间进行语义标注;3) 生成场景图,表示对象之间的关系;4) 使用启发式方法生成大量的指代表述,并引入各种类型的语言不完美情况;5) 提供可导航的自由空间标注,用于导航任务。此外,论文还提出了一个基于图搜索的基线方法,利用场景图知识来生成替代方案,并评估模型的性能上限。

关键创新:IRef-VLA数据集的主要创新点在于其对不完美语言的关注和模拟。与以往的指代定位数据集相比,IRef-VLA包含了更多真实世界场景中常见的语言噪声和语义歧义,更贴近实际应用。此外,数据集还提供了场景图和可导航自由空间标注,为研究者提供了更多的信息和工具,可以用于开发更强大的交互式导航系统。

关键设计:IRef-VLA数据集的关键设计包括:1) 使用启发式方法生成指代表述,并控制不同类型语言不完美情况的比例;2) 提供详细的场景图,包括对象之间的语义关系和空间关系;3) 提供可导航自由空间标注,方便进行导航任务的评估;4) 使用最先进的模型进行评估,建立性能基线,并提供基于图搜索的基线方法作为性能上限参考。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IRef-VLA数据集包含超过1.15万个3D房间、760万个语义关系和470万个指代表述,是目前最大的真实世界指代定位数据集。通过在IRef-VLA上评估现有模型,论文建立了性能基线,并发现现有模型在处理不完美语言时表现不佳。基于图搜索的基线方法可以达到更高的性能,表明利用场景图知识可以有效提高指代定位的准确性。

🎯 应用场景

该研究成果可应用于室内服务机器人、智能家居、虚拟现实等领域。例如,服务机器人可以根据用户的自然语言指令,在家庭环境中找到指定的物品,即使指令中存在一些模糊或错误的信息。在虚拟现实中,用户可以通过自然语言与虚拟环境进行交互,实现更自然、更沉浸式的体验。未来,该技术有望应用于更复杂的场景,例如自动驾驶、智能制造等。

📄 摘要(原文)

With the recent rise of large language models, vision-language models, and other general foundation models, there is growing potential for multimodal, multi-task robotics that can operate in diverse environments given natural language input. One such application is indoor navigation using natural language instructions. However, despite recent progress, this problem remains challenging due to the 3D spatial reasoning and semantic understanding required. Additionally, the language used may be imperfect or misaligned with the scene, further complicating the task. To address this challenge, we curate a benchmark dataset, IRef-VLA, for Interactive Referential Vision and Language-guided Action in 3D Scenes with imperfect references. IRef-VLA is the largest real-world dataset for the referential grounding task, consisting of over 11.5K scanned 3D rooms from existing datasets, 7.6M heuristically generated semantic relations, and 4.7M referential statements. Our dataset also contains semantic object and room annotations, scene graphs, navigable free space annotations, and is augmented with statements where the language has imperfections or ambiguities. We verify the generalizability of our dataset by evaluating with state-of-the-art models to obtain a performance baseline and also develop a graph-search baseline to demonstrate the performance bound and generation of alternatives using scene-graph knowledge. With this benchmark, we aim to provide a resource for 3D scene understanding that aids the development of robust, interactive navigation systems. The dataset and all source code is publicly released at https://github.com/HaochenZ11/IRef-VLA.