Text2Interaction: Establishing Safe and Preferable Human-Robot Interaction
作者: Jakob Thumm, Christopher Agia, Marco Pavone, Matthias Althoff
分类: cs.RO
发布日期: 2024-08-12 (更新: 2024-10-18)
备注: Accepted for the Conference on Robot Learning (CoRL) 2024. Available at: https://openreview.net/forum?id=s0VNSnPeoA
💡 一句话要点
Text2Interaction:利用大语言模型实现安全且符合用户偏好的人机交互
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 大型语言模型 用户偏好 零样本学习 机器人控制
📋 核心要点
- 现有机器人交互方法依赖大量人工反馈来适应用户偏好,且需手动平衡任务成功与用户满意度。
- Text2Interaction框架利用大语言模型生成任务计划、运动偏好代码和安全控制器参数,实现零样本用户偏好整合。
- 实验表明,Text2Interaction能更好适应未见偏好,同时保持高成功率,用户满意度显著优于基线。
📝 摘要(中文)
调整机器人行为以适应人类偏好通常需要大量的人工反馈,这阻碍了机器人快速适应新用户和变化的环境。此外,现有方法通常将用户偏好视为奖励,需要在任务成功和用户满意度之间手动进行平衡。为了以零样本方式整合新的用户偏好,我们提出了Text2Interaction框架,该框架利用大型语言模型生成任务计划、用Python代码表示的运动偏好以及安全控制器的参数。通过最大化任务完成和用户满意度的联合概率,而不是奖励的加权和,我们可以可靠地找到满足这两个要求的计划。调查显示,83%使用Text2Interaction的用户认为它将他们的偏好融入了机器人的计划中,并且94%的用户更喜欢Text2Interaction。消融研究表明,Text2Interaction比其他基线更好地适应了未见过的偏好,同时保持了较高的成功率。真实世界的演示和代码可在sites.google.com/view/text2interaction上找到。
🔬 方法详解
问题定义:现有的人机交互方法在适应用户偏好时存在两个主要痛点。一是需要大量的人工反馈,导致机器人难以快速适应新的用户和环境。二是通常将用户偏好视为奖励,需要在任务成功和用户满意度之间进行手动权衡,难以找到同时满足两者要求的方案。
核心思路:Text2Interaction的核心思路是利用大型语言模型(LLM)的强大生成能力,将用户输入的文本偏好转化为机器人可执行的任务计划、运动偏好代码以及安全控制器的参数。通过这种方式,实现了用户偏好的零样本迁移,避免了繁琐的人工反馈和手动权衡。
技术框架:Text2Interaction框架主要包含以下几个模块:1) 文本偏好输入:接收用户以自然语言描述的偏好。2) LLM任务规划:利用LLM将文本偏好转化为任务计划。3) LLM运动偏好生成:利用LLM生成用Python代码表示的运动偏好。4) 安全控制器参数生成:利用LLM生成安全控制器的参数。5) 任务执行:机器人根据任务计划、运动偏好和安全控制器参数执行任务。框架通过最大化任务完成和用户满意度的联合概率来优化整个过程。
关键创新:Text2Interaction的关键创新在于利用大型语言模型实现了用户偏好的零样本迁移。与传统的基于奖励的方法不同,Text2Interaction直接从文本偏好生成可执行的任务计划和控制参数,避免了手动设计奖励函数和进行权衡的困难。此外,使用Python代码表示运动偏好,使得用户可以更灵活地表达自己的意图。
关键设计:Text2Interaction框架的关键设计包括:1) 使用预训练的大型语言模型,例如GPT-3,以获得强大的文本理解和生成能力。2) 设计合适的提示工程(prompt engineering),引导LLM生成高质量的任务计划、运动偏好代码和安全控制器参数。3) 使用概率模型来表示任务完成和用户满意度,并通过最大化联合概率来优化整个过程。4) 运动偏好使用Python代码表示,允许用户自定义复杂的运动行为。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Text2Interaction在适应未见过的用户偏好方面优于其他基线方法,同时保持了较高的任务成功率。用户调查显示,83%的用户认为Text2Interaction能够很好地整合他们的偏好,并且94%的用户更喜欢Text2Interaction。这些结果表明,Text2Interaction是一种有效且用户友好的人机交互框架。
🎯 应用场景
Text2Interaction具有广泛的应用前景,例如在家庭服务机器人、工业机器人、医疗机器人等领域。它可以使机器人能够快速适应不同用户的偏好,提供个性化的服务。此外,该框架还可以用于教育和培训领域,帮助用户更好地理解和控制机器人。未来,Text2Interaction有望成为人机协作的重要组成部分,促进人与机器人之间的和谐共处。
📄 摘要(原文)
Adjusting robot behavior to human preferences can require intensive human feedback, preventing quick adaptation to new users and changing circumstances. Moreover, current approaches typically treat user preferences as a reward, which requires a manual balance between task success and user satisfaction. To integrate new user preferences in a zero-shot manner, our proposed Text2Interaction framework invokes large language models to generate a task plan, motion preferences as Python code, and parameters of a safety controller. By maximizing the combined probability of task completion and user satisfaction instead of a weighted sum of rewards, we can reliably find plans that fulfill both requirements. We find that 83 % of users working with Text2Interaction agree that it integrates their preferences into the plan of the robot, and 94 % prefer Text2Interaction over the baseline. Our ablation study shows that Text2Interaction aligns better with unseen preferences than other baselines while maintaining a high success rate. Real-world demonstrations and code are made available at sites.google.com/view/text2interaction.