Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions

📄 arXiv: 2508.16143v1 📥 PDF

作者: Akira Oyama, Shoichi Hasegawa, Akira Taniguchi, Yoshinobu Hagiwara, Tadahiro Taniguchi

分类: cs.RO, cs.AI

发布日期: 2025-08-22

备注: See website at https://emergentsystemlabstudent.github.io/MIEL/. Accepted at IEEE RO-MAN 2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出多模态交互式外指代解析框架以解决模糊指令问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 外指代解析 多模态交互 声音源定位 语义映射 视觉语言模型 机器人技术 用户交互

📋 核心要点

  1. 现有的外指代解析方法在用户或对象不可见的情况下,无法有效理解模糊的语言指令,限制了机器人在复杂环境中的应用。
  2. 本文提出的MIEL框架通过结合声音源定位、语义映射和交互式提问,能够在用户不可见时仍然准确解析指令。
  3. 实验结果显示,MIEL在用户可见时性能提升约1.3倍,在用户不可见时提升达2.0倍,显著优于传统方法。

📝 摘要(中文)

日常生活支持机器人必须能够理解模糊的语言指令,例如“把那个杯子给我”,即使对象或用户不在机器人的视野内。现有的外指代解析方法主要依赖视觉数据,因此在实际场景中,当对象或用户不可见时,效果不佳。本文提出了一种多模态交互式外指代解析框架(MIEL),该框架结合了声音源定位、语义映射、视觉语言模型和基于GPT-4o的交互式提问。通过构建环境的语义地图和利用用户的骨骼数据来估计候选对象,MIEL能够有效地识别用户的手势和指向方向。实验结果表明,当用户可见时,性能提升约1.3倍,而当用户不可见时,提升达2.0倍。

🔬 方法详解

问题定义:本文旨在解决日常生活支持机器人在用户或对象不可见时,无法有效解析模糊语言指令的问题。现有方法主要依赖视觉信息,导致在实际应用中效果不佳。

核心思路:MIEL框架通过结合声音源定位、语义映射和交互式提问,能够在用户不可见时仍然准确识别指令。该设计旨在提高机器人对模糊指令的理解能力,增强其在复杂环境中的适应性。

技术框架:MIEL的整体架构包括四个主要模块:1) 语义地图构建,2) 用户定位与候选对象估计,3) 声音源定位,4) 交互式提问。通过这些模块的协同工作,机器人能够有效解析模糊指令。

关键创新:MIEL的核心创新在于结合声音源定位与交互式提问,能够在用户不可见的情况下主动与用户互动,提出澄清性问题,从而提高解析的准确性。这一方法与传统依赖视觉的解析方法本质上不同。

关键设计:在技术细节上,MIEL使用了用户的骨骼数据进行对象估计,并通过GPT-4o生成澄清性问题。此外,声音源定位技术的应用使得机器人能够在用户不在视野内时,依然能够准确识别用户的手势和指向方向。

📊 实验亮点

实验结果表明,MIEL在用户可见时的性能提升约1.3倍,而在用户不可见时的提升达2.0倍,显著优于未使用声音源定位和交互式提问的传统方法。这一结果验证了MIEL框架的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括家庭服务机器人、医疗辅助机器人以及智能家居系统等。通过提高机器人对模糊指令的理解能力,MIEL能够显著提升用户体验,推动机器人在复杂环境中的实际应用,具有广泛的社会价值和影响力。

📄 摘要(原文)

Daily life support robots must interpret ambiguous verbal instructions involving demonstratives such as ``Bring me that cup,'' even when objects or users are out of the robot's view. Existing approaches to exophora resolution primarily rely on visual data and thus fail in real-world scenarios where the object or user is not visible. We propose Multimodal Interactive Exophora resolution with user Localization (MIEL), which is a multimodal exophora resolution framework leveraging sound source localization (SSL), semantic mapping, visual-language models (VLMs), and interactive questioning with GPT-4o. Our approach first constructs a semantic map of the environment and estimates candidate objects from a linguistic query with the user's skeletal data. SSL is utilized to orient the robot toward users who are initially outside its visual field, enabling accurate identification of user gestures and pointing directions. When ambiguities remain, the robot proactively interacts with the user, employing GPT-4o to formulate clarifying questions. Experiments in a real-world environment showed results that were approximately 1.3 times better when the user was visible to the robot and 2.0 times better when the user was not visible to the robot, compared to the methods without SSL and interactive questioning. The project website is https://emergentsystemlabstudent.github.io/MIEL/.