Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind

作者: Lance Ying, Xinyi Li, Shivam Aarya, Yizirui Fang, Yifan Yin, Jason Xinyu Liu, Stefanie Tellex, Joshua B. Tenenbaum, Tianmin Shu

分类: cs.RO, cs.AI, cs.HC, cs.MA

发布日期: 2024-09-17 (更新: 2025-10-06)

备注: 8 pages, 7 figures

💡 一句话要点

提出SIFToM模型，利用心智理论提升机器人语音指令跟随的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音指令跟随 人机协作 心智理论 视觉-语言模型 具身智能

📋 核心要点

现实人机协作中，语音指令易受噪声干扰，导致机器人难以准确理解并执行指令。
SIFToM模型结合视觉-语言模型与心智理论，使机器人能推断人类意图，从而理解噪声语音指令。
实验表明，SIFToM显著提升了语音指令跟随的准确性，性能超越现有VLM模型并接近人类水平。

📝 摘要（中文）

本文提出了一种受认知科学启发的神经符号模型，即基于心智理论的语音指令跟随（SIFToM），该模型利用视觉-语言模型和基于模型的心理推理，使机器人能够在各种语音条件下务实地遵循人类指令。为了应对真实世界人机协作中语音指令的噪声问题，SIFToM模型能够结合具身环境中的协作上下文来理解有噪声的语音指令，并采取实用的辅助行动。我们在模拟环境（VirtualHome）和真实世界的人机协作环境中对SIFToM进行了测试，并进行了人工评估。结果表明，SIFToM能够显著提高轻量级基础视觉-语言模型（Gemini 2.5 Flash）的性能，优于最先进的视觉-语言模型（Gemini 2.5 Pro），并在具有挑战性的语音指令跟随任务中接近人类水平的准确性。

🔬 方法详解

问题定义：论文旨在解决真实世界人机协作中，由于语音指令受到噪声、口音、发音不清等因素干扰，导致机器人难以准确理解并执行人类语音指令的问题。现有方法通常依赖于对语音的精确识别，对噪声鲁棒性较差，难以适应复杂环境。

核心思路：论文的核心思路是引入心智理论（Theory of Mind），使机器人能够像人类一样，根据环境上下文、人类行为和潜在意图来推断指令的真实含义，即使语音输入存在噪声也能做出合理的推断和行动。通过模拟人类的认知过程，提高机器人对模糊或不完整语音指令的理解能力。

技术框架：SIFToM模型的技术框架主要包含以下几个模块：1) 视觉-语言模型（VLM）：用于将视觉信息和语音信息编码为统一的特征表示。2) 心智推理模块：基于概率模型，模拟人类的信念、意图和行动之间的关系，用于推断人类的真实意图。3) 行动规划模块：根据推理得到的意图，规划并执行相应的机器人动作。整体流程是：首先，VLM处理语音和视觉输入；然后，心智推理模块根据VLM的输出和环境上下文推断人类意图；最后，行动规划模块根据推断的意图生成机器人动作。

关键创新：论文最重要的技术创新点在于将心智理论与视觉-语言模型相结合，使机器人具备了根据上下文推断人类意图的能力。与现有方法相比，SIFToM不再仅仅依赖于对语音的精确识别，而是能够像人类一样，结合环境信息和对人类意图的理解来执行指令，从而提高了对噪声语音的鲁棒性。

关键设计：心智推理模块是SIFToM的关键。该模块使用贝叶斯网络来建模人类的信念、意图和行动之间的关系。具体来说，模型会考虑以下因素：1) 机器人的当前状态；2) 人类可能的目标；3) 人类可能发出的指令；4) 机器人观察到的语音输入。模型通过计算后验概率P(目标|语音输入, 机器人状态)来推断人类的真实意图。此外，论文还设计了一种新的损失函数，用于训练VLM和心智推理模块，以提高模型的整体性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SIFToM模型在模拟环境和真实环境中均取得了显著的性能提升。在VirtualHome模拟环境中，SIFToM的指令跟随准确率比基线VLM模型（Gemini 2.5 Flash）提高了约20%。在真实人机协作环境中，SIFToM的性能优于最先进的VLM模型（Gemini 2.5 Pro），并且在某些任务中接近人类水平的准确性。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如家庭服务机器人、工业机器人、医疗辅助机器人等。通过提高机器人对噪声语音指令的理解能力，可以使人机交互更加自然、高效和安全。未来，该技术还可以扩展到其他模态的指令理解，例如手势指令、表情指令等，从而实现更加智能和灵活的人机协作。

📄 摘要（原文）

Spoken language instructions are ubiquitous in agent collaboration. However, in real-world human-robot collaboration, following human spoken instructions can be challenging due to various speaker and environmental factors, such as background noise or mispronunciation. When faced with noisy auditory inputs, humans can leverage the collaborative context in the embodied environment to interpret noisy spoken instructions and take pragmatic assistive actions. In this paper, we present a cognitively inspired neurosymbolic model, Spoken Instruction Following through Theory of Mind (SIFToM), which leverages a Vision-Language Model with model-based mental inference to enable robots to pragmatically follow human instructions under diverse speech conditions. We test SIFToM in both simulated environments (VirtualHome) and real-world human-robot collaborative settings with human evaluations. Results show that SIFToM can significantly improve the performance of a lightweight base VLM (Gemini 2.5 Flash), outperforming state-of-the-art VLMs (Gemini 2.5 Pro) and approaching human-level accuracy on challenging spoken instruction following tasks.

Pragmatic Embodied Spoken Instruction Following in Human-Robot Collaboration with Theory of Mind

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理