Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation

作者: Albert Yu, Chengshu Li, Luca Macesanu, Arnav Balaji, Ruchira Ray, Raymond Mooney, Roberto Martín-Martín

分类: cs.RO, cs.CL, cs.HC, cs.LG, cs.MA

发布日期: 2025-08-07

备注: Project website at https://robin-lab.cs.utexas.edu/MicoBot/

💡 一句话要点

提出MICoBot，通过混合主动对话实现人机协作操作，提升任务成功率和用户体验。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 人机协作 混合主动对话 自然语言处理 机器人控制 任务规划

📋 核心要点

现有的人机协作系统难以适应不同人类伙伴的行为和意愿，缺乏灵活的沟通机制。
MICoBot通过混合主动对话，允许人与机器人共同制定协作策略，优化任务分配。
实验表明，MICoBot显著提高了任务成功率和用户体验，优于纯LLM基线和其他分配模型。

📝 摘要（中文）

为了使机器人系统能够有效地进行长期人机协作，系统必须适应各种人类伙伴，他们可能具有不同的行为习惯、协助意愿以及对机器人能力的理解。这需要一个紧密耦合的通信循环，允许双方灵活地提出、接受或拒绝请求，从而有效地协调完成任务。本文将混合主动对话范式应用于人机协作，并提出了MICoBot系统。该系统处理了常见场景，即双方使用自然语言主动提出、接受或拒绝关于谁最适合完成任务不同步骤的建议。为了处理多样化的、以任务为导向的对话，并找到能够最小化人类努力的成功协作策略，MICoBot在三个层面上做出决策：（1）元规划器考虑人类对话，制定和编码高级协作策略；（2）规划器基于机器人的能力（通过模拟预训练的可供性模型测量）和人类的估计可用性，优化地将剩余步骤分配给双方；（3）动作执行器决定要执行的低级动作或要对人类说的话。在模拟和真实世界的广泛评估中（在具有18名独特人类参与者的物理机器人上进行了超过27小时的实验），证明了该方法能够有效地与不同的人类用户协作，与纯LLM基线和其他代理分配模型相比，显著提高了任务成功率和用户体验。

🔬 方法详解

问题定义：现有的人机协作系统难以适应不同人类伙伴的差异性，例如不同的行为习惯、协助意愿以及对机器人能力的理解。缺乏一个有效的沟通机制，使得人与机器人难以灵活地协商任务分配，从而影响协作效率和任务成功率。现有方法通常依赖于预定义的规则或单一主导方的决策，无法充分利用双方的优势。

核心思路：MICoBot的核心思路是引入混合主动对话范式，允许人与机器人在任务执行过程中进行双向沟通和协商。通过自然语言对话，双方可以主动提出建议、接受或拒绝请求，共同制定协作策略。这种方式能够更好地适应不同人类伙伴的特点，并充分利用双方的能力，从而提高协作效率和任务成功率。这样设计的目的是为了创建一个更加灵活、适应性更强的人机协作系统。

技术框架：MICoBot系统包含三个主要模块：元规划器、规划器和动作执行器。元规划器负责分析人类对话，制定高级协作策略。规划器基于机器人的能力和人类的可用性，优化地将剩余步骤分配给双方。动作执行器负责执行低级动作或与人类进行对话。整个流程如下：首先，人类与机器人通过自然语言进行对话，元规划器根据对话内容制定协作策略；然后，规划器根据策略和双方的能力进行任务分配；最后，动作执行器执行相应的动作或与人类进行沟通。

关键创新：MICoBot的关键创新在于将混合主动对话范式应用于人机协作，并提出了一个三层决策框架。与现有方法相比，MICoBot能够更好地适应不同人类伙伴的特点，并充分利用双方的能力。此外，MICoBot还引入了模拟预训练的可供性模型，用于评估机器人的能力，从而更准确地进行任务分配。与现有方法的本质区别在于，MICoBot允许人与机器人共同制定协作策略，而不是依赖于预定义的规则或单一主导方的决策。

关键设计：MICoBot的关键设计包括：(1) 使用自然语言处理技术理解人类对话，并提取关键信息；(2) 使用模拟预训练的可供性模型评估机器人的能力；(3) 设计了一个优化算法，用于根据机器人的能力和人类的可用性进行任务分配；(4) 设计了一个动作执行器，用于执行低级动作或与人类进行对话。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

在模拟和真实世界的实验中，MICoBot与纯LLM基线和其他代理分配模型相比，显著提高了任务成功率和用户体验。具体而言，在真实世界的实验中，MICoBot与18名独特的人类参与者进行了超过27小时的协作，结果表明MICoBot能够有效地与不同的人类用户协作，并显著提高了任务成功率（具体提升幅度未知）和用户体验（具体指标未知）。

🎯 应用场景

MICoBot技术可应用于各种人机协作场景，例如：智能制造、医疗康复、家庭服务等。在智能制造中，机器人可以与工人协同完成装配、搬运等任务，提高生产效率和产品质量。在医疗康复中，机器人可以辅助医生进行手术、康复训练等，减轻医生的工作负担，提高治疗效果。在家庭服务中，机器人可以帮助人们完成家务、照顾老人等，提高生活质量。

📄 摘要（原文）

Effective robotic systems for long-horizon human-robot collaboration must adapt to a wide range of human partners, whose physical behavior, willingness to assist, and understanding of the robot's capabilities may change over time. This demands a tightly coupled communication loop that grants both agents the flexibility to propose, accept, or decline requests as they coordinate toward completing the task effectively. We apply a Mixed-Initiative dialog paradigm to Collaborative human-roBot teaming and propose MICoBot, a system that handles the common scenario where both agents, using natural language, take initiative in formulating, accepting, or rejecting proposals on who can best complete different steps of a task. To handle diverse, task-directed dialog, and find successful collaborative strategies that minimize human effort, MICoBot makes decisions at three levels: (1) a meta-planner considers human dialog to formulate and code a high-level collaboration strategy, (2) a planner optimally allocates the remaining steps to either agent based on the robot's capabilities (measured by a simulation-pretrained affordance model) and the human's estimated availability to help, and (3) an action executor decides the low-level actions to perform or words to say to the human. Our extensive evaluations in simulation and real-world -- on a physical robot with 18 unique human participants over 27 hours -- demonstrate the ability of our method to effectively collaborate with diverse human users, yielding significantly improved task success and user experience than a pure LLM baseline and other agent allocation models. See additional videos and materials at https://robin-lab.cs.utexas.edu/MicoBot/.

Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理