ExpressMM: Expressive Mobile Manipulation Behaviors in Human-Robot Interactions

📄 arXiv: 2604.05320v1 📥 PDF

作者: Souren Pashangpour, Haitong Wang, Matthew Lisondra, Goldie Nejat

分类: cs.RO

发布日期: 2026-04-07

备注: Submitted to IEEE RO-MAN 2026


💡 一句话要点

ExpressMM:人机交互中基于视觉-语言-动作策略的移动操作表达行为

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 移动操作 视觉-语言模型 表达性行为 协作机器人

📋 核心要点

  1. 现有方法难以应对人机交互中用户中断、修改或重定向机器人动作的场景,限制了机器人的灵活性和适应性。
  2. ExpressMM框架融合了视觉-语言模型和视觉-语言-动作策略,使机器人能够理解人类指令并生成表达性行为。
  3. 实验表明,ExpressMM能有效提升人机交互的自然性和可理解性,增强用户对机器人安全性与实用性的积极认知。

📝 摘要(中文)

移动操作机器人在以人为中心的环境中应用日益广泛。在完成任务的同时,它们还应能够通过富有表现力的机器人行为向周围的人传达意图。现有关于表达性机器人行为的研究主要采用预编程、示教学习或大型语言模型生成的高级交互。然而,这些方法大多未考虑人机交互(HRI)中用户可能中断、修改或重定向机器人动作的情况。本文提出了ExpressMM框架,该框架集成了基于视觉-语言模型的高级语言引导规划器,用于感知和会话推理,以及低级视觉-语言-动作策略,以在协作HRI任务中生成表达性机器人行为。此外,ExpressMM支持可中断的交互,以适应用户更新或重定向的指令。我们在一个移动操作机器人辅助人类进行协作组装的场景中演示了ExpressMM,并进行了基于观众的现场HRI演示评估。问卷结果表明,ExpressMM支持的表达性行为有助于观察者清楚地理解机器人的动作和意图,同时支持社会适当且易于理解的交互。参与者还报告说,该机器人在协作任务中非常有用,并且在演示过程中表现出可预测和安全的行为,从而培养了对机器人在协作任务中的有用性、安全性和可预测性的积极看法。

🔬 方法详解

问题定义:现有移动操作机器人在人机交互中,难以根据人类的实时指令调整行为,缺乏足够的表达能力来清晰地传达其意图。预编程或示教学习的方法难以泛化到复杂和动态的环境中,而大型语言模型驱动的方法通常忽略了低级别的动作控制和实时交互的需求。因此,如何使移动操作机器人在协作任务中表现出更自然、可理解和适应性强的行为是一个关键问题。

核心思路:ExpressMM的核心思路是将高级的语言理解和规划与低级的视觉-语言-动作控制相结合,从而使机器人能够理解人类的指令,并将其转化为具体的、富有表达力的动作。通过视觉-语言模型进行感知和会话推理,机器人可以理解用户的意图和任务目标。然后,通过视觉-语言-动作策略,机器人可以生成相应的动作,并以一种易于理解的方式表达出来。这种分层控制结构允许机器人根据用户的实时反馈进行调整,从而实现更自然和流畅的人机交互。

技术框架:ExpressMM框架包含两个主要模块:高级语言引导规划器和低级视觉-语言-动作策略。高级规划器基于视觉-语言模型,负责感知环境、理解用户指令和生成任务规划。低级策略则负责将高级规划转化为具体的机器人动作,并确保动作的表达性和安全性。整个流程如下:首先,机器人通过视觉传感器获取环境信息,并使用视觉-语言模型理解用户的语言指令。然后,高级规划器根据用户指令和环境信息生成任务规划。最后,低级策略将任务规划转化为具体的机器人动作,并执行这些动作。在执行过程中,机器人会持续监测用户的反馈,并根据反馈调整其行为。

关键创新:ExpressMM的关键创新在于其将视觉-语言模型与视觉-语言-动作策略相结合,从而实现了高级的语言理解和低级的动作控制之间的无缝衔接。这种结合使得机器人能够理解人类的意图,并将其转化为具体的、富有表达力的动作。此外,ExpressMM还支持可中断的交互,允许用户在任务执行过程中修改或重定向机器人的行为。这使得机器人能够更好地适应动态和不确定的环境。

关键设计:ExpressMM的具体技术细节包括:使用预训练的视觉-语言模型(例如CLIP或类似模型)进行环境感知和语言理解;设计特定的损失函数来训练视觉-语言-动作策略,例如模仿学习损失和强化学习奖励;使用行为克隆或逆强化学习等方法来学习表达性动作;以及设计合适的参数来平衡高级规划和低级控制之间的关系。

📊 实验亮点

实验结果表明,ExpressMM能够显著提高人机交互的质量。问卷调查显示,使用ExpressMM的机器人能够更清晰地传达其意图,并且其行为更易于理解和预测。参与者还报告说,该机器人在协作任务中非常有用,并且表现出可预测和安全的行为。这些结果表明,ExpressMM能够有效地提高人机交互的自然性和可信度。

🎯 应用场景

ExpressMM框架可应用于各种人机协作场景,例如:辅助装配、家庭服务、医疗护理等。通过提高机器人行为的可理解性和适应性,可以增强人与机器人之间的信任和协作效率。未来,该技术有望促进机器人更广泛地应用于人类生活,并改善人机交互体验。

📄 摘要(原文)

Mobile manipulators are increasingly deployed in human-centered environments to perform tasks. While completing such tasks, they should also be able to communicate their intent to the people around them using expressive robot behaviors. Prior work on expressive robot behaviors has used preprogrammed or learning-from-demonstration- based expressive motions and large language model generated high-level interactions. The majority of these existing approaches have not considered human-robot interactions (HRI) where users may interrupt, modify, or redirect a robot's actions during task execution. In this paper, we develop the novel ExpressMM framework that integrates a high-level language-guided planner based on a vision-language model for perception and conversational reasoning with a low-level vision-language-action policy to generate expressive robot behaviors during collaborative HRI tasks. Furthermore, ExpressMM supports interruptible interactions to accommodate updated or redirecting instructions by users. We demonstrate ExpressMM on a mobile manipulator assisting a human in a collaborative assembly scenario and conduct audience-based evaluation of live HRI demonstrations. Questionnaire results show that the ExpressMM-enabled expressive behaviors helped observers clearly interpret the robot's actions and intentions while supporting socially appropriate and understandable interactions. Participants also reported that the robot was useful for collaborative tasks and behaved in a predictable and safe manner during the demonstrations, fostering positive perceptions of the robot's usefulness, safety, and predictability during the collaborative tasks.