Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction

作者: Jakob Thumm, Christopher Agia, Marco Pavone, Matthias Althoff

分类: cs.RO

发布日期: 2024-08-12 (更新: 2024-10-18)

备注: Accepted for the Conference on Robot Learning (CoRL) 2024. Available at: https://openreview.net/forum?id=s0VNSnPeoA

💡 一句话要点

Text2Interaction：利用大语言模型实现安全且符合用户偏好的人机交互

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 大型语言模型 用户偏好 零样本学习 机器人控制

📋 核心要点

现有机器人交互方法依赖大量人工反馈来适应用户偏好，且需手动平衡任务成功与用户满意度。
Text2Interaction框架利用大语言模型生成任务计划、运动偏好代码和安全控制器参数，实现零样本用户偏好整合。
实验表明，Text2Interaction能更好适应未见偏好，同时保持高成功率，用户满意度显著优于基线。

📝 摘要（中文）

调整机器人行为以适应人类偏好通常需要大量的人工反馈，这阻碍了机器人快速适应新用户和变化的环境。此外，现有方法通常将用户偏好视为奖励，需要在任务成功和用户满意度之间手动进行平衡。为了以零样本方式整合新的用户偏好，我们提出了Text2Interaction框架，该框架利用大型语言模型生成任务计划、用Python代码表示的运动偏好以及安全控制器的参数。通过最大化任务完成和用户满意度的联合概率，而不是奖励的加权和，我们可以可靠地找到满足这两个要求的计划。调查显示，83%使用Text2Interaction的用户认为它将他们的偏好融入了机器人的计划中，并且94%的用户更喜欢Text2Interaction。消融研究表明，Text2Interaction比其他基线更好地适应了未见过的偏好，同时保持了较高的成功率。真实世界的演示和代码可在sites.google.com/view/text2interaction上找到。

🔬 方法详解

问题定义：现有的人机交互方法在适应用户偏好时存在两个主要痛点。一是需要大量的人工反馈，导致机器人难以快速适应新的用户和环境。二是通常将用户偏好视为奖励，需要在任务成功和用户满意度之间进行手动权衡，难以找到同时满足两者要求的方案。

核心思路：Text2Interaction的核心思路是利用大型语言模型（LLM）的强大生成能力，将用户输入的文本偏好转化为机器人可执行的任务计划、运动偏好代码以及安全控制器的参数。通过这种方式，实现了用户偏好的零样本迁移，避免了繁琐的人工反馈和手动权衡。

技术框架：Text2Interaction框架主要包含以下几个模块：1) 文本偏好输入：接收用户以自然语言描述的偏好。2) LLM任务规划：利用LLM将文本偏好转化为任务计划。3) LLM运动偏好生成：利用LLM生成用Python代码表示的运动偏好。4) 安全控制器参数生成：利用LLM生成安全控制器的参数。5) 任务执行：机器人根据任务计划、运动偏好和安全控制器参数执行任务。框架通过最大化任务完成和用户满意度的联合概率来优化整个过程。

关键创新：Text2Interaction的关键创新在于利用大型语言模型实现了用户偏好的零样本迁移。与传统的基于奖励的方法不同，Text2Interaction直接从文本偏好生成可执行的任务计划和控制参数，避免了手动设计奖励函数和进行权衡的困难。此外，使用Python代码表示运动偏好，使得用户可以更灵活地表达自己的意图。

关键设计：Text2Interaction框架的关键设计包括：1) 使用预训练的大型语言模型，例如GPT-3，以获得强大的文本理解和生成能力。2) 设计合适的提示工程（prompt engineering），引导LLM生成高质量的任务计划、运动偏好代码和安全控制器参数。3) 使用概率模型来表示任务完成和用户满意度，并通过最大化联合概率来优化整个过程。4) 运动偏好使用Python代码表示，允许用户自定义复杂的运动行为。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Text2Interaction在适应未见过的用户偏好方面优于其他基线方法，同时保持了较高的任务成功率。用户调查显示，83%的用户认为Text2Interaction能够很好地整合他们的偏好，并且94%的用户更喜欢Text2Interaction。这些结果表明，Text2Interaction是一种有效且用户友好的人机交互框架。

🎯 应用场景

Text2Interaction具有广泛的应用前景，例如在家庭服务机器人、工业机器人、医疗机器人等领域。它可以使机器人能够快速适应不同用户的偏好，提供个性化的服务。此外，该框架还可以用于教育和培训领域，帮助用户更好地理解和控制机器人。未来，Text2Interaction有望成为人机协作的重要组成部分，促进人与机器人之间的和谐共处。

📄 摘要（原文）

Adjusting robot behavior to human preferences can require intensive human feedback, preventing quick adaptation to new users and changing circumstances. Moreover, current approaches typically treat user preferences as a reward, which requires a manual balance between task success and user satisfaction. To integrate new user preferences in a zero-shot manner, our proposed Text2Interaction framework invokes large language models to generate a task plan, motion preferences as Python code, and parameters of a safety controller. By maximizing the combined probability of task completion and user satisfaction instead of a weighted sum of rewards, we can reliably find plans that fulfill both requirements. We find that 83 % of users working with Text2Interaction agree that it integrates their preferences into the plan of the robot, and 94 % prefer Text2Interaction over the baseline. Our ablation study shows that Text2Interaction aligns better with unseen preferences than other baselines while maintaining a high success rate. Real-world demonstrations and code are made available at sites.google.com/view/text2interaction.

Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理