Enhancing Robot Assistive Behaviour with Reinforcement Learning and Theory of Mind
作者: Antonio Andriella, Giovanni Falcone, Silvia Rossi
分类: cs.RO, cs.AI, cs.HC
发布日期: 2024-11-11
DOI: 10.1007/s12369-025-01280-z
💡 一句话要点
结合强化学习与心智理论,提升机器人辅助行为
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人机协作 强化学习 心智理论 机器人辅助 自适应行为
📋 核心要点
- 现有机器人辅助系统缺乏对人类意图的深入理解,难以根据用户偏好进行自适应调整,影响协作效率。
- 提出一种双层架构,结合强化学习和心智理论,使机器人能够学习用户策略并提供更有效的辅助。
- 实验结果表明,配备心智理论的机器人能显著提升用户表现,提高用户对机器人辅助的接受度和信任度。
📝 摘要(中文)
为了实现有效的人机协作,适应用户偏好以及推断和理解人类信念和意图的能力(即心智理论,ToM)至关重要。尽管其重要性,但很少有研究调查具有ToM能力的自适应机器人所产生的影响。本文提出了一项探索性比较研究,旨在调查配备ToM能力的社交机器人如何影响用户的表现和感知。我们设计了一个双层架构。第一层的Q-learning智能体学习机器人的高层行为。在第二层,基于启发式的心智理论推断用户的意图策略,并负责实施机器人的辅助,以及提供其选择背后的动机。我们进行了一项真实环境下的用户研究,涉及56名参与者,他们与具有ToM能力的自适应机器人或缺乏这种能力的机器人进行交互。我们的研究结果表明,ToM条件下的参与者表现更好,更频繁地接受机器人的帮助,并且在更大程度上感知到机器人适应、预测和识别他们意图的能力。我们的初步见解可以为未来的研究提供信息,并为设计具有ToM能力的自适应行为的更复杂的计算架构铺平道路。
🔬 方法详解
问题定义:现有机器人辅助系统难以理解人类用户的意图和信念,导致辅助行为不够智能和个性化。缺乏心智理论(ToM)的机器人无法有效地预测用户的行为,从而降低了人机协作的效率和用户满意度。现有方法通常依赖于预定义的规则或简单的行为模仿,难以适应复杂和动态的用户行为。
核心思路:本文的核心思路是将强化学习与心智理论相结合,构建一个能够学习用户策略并推断用户意图的机器人辅助系统。通过强化学习,机器人可以学习最优的辅助策略,而心智理论则帮助机器人理解用户的目标和信念,从而提供更具针对性和个性化的辅助。
技术框架:该系统采用双层架构。第一层是Q-learning智能体,负责学习机器人的高层行为策略,例如何时以及如何提供辅助。第二层是基于启发式的心智理论模块,负责推断用户的意图策略,并根据推断结果实施机器人的辅助行为,同时向用户解释其辅助选择的动机。用户与机器人进行交互,机器人根据用户的行为更新Q-learning模型和心智理论模型。
关键创新:该研究的关键创新在于将强化学习与心智理论相结合,使机器人能够同时学习最优辅助策略和理解用户的意图。这种结合使得机器人能够提供更智能、更个性化的辅助,从而提高人机协作的效率和用户满意度。此外,该研究还通过用户实验验证了该方法的有效性。
关键设计:Q-learning智能体使用状态-动作值函数(Q-function)来评估不同状态下采取不同动作的价值。状态空间包括用户的当前状态和机器人的辅助历史。动作空间包括不同的辅助行为。心智理论模块使用启发式规则来推断用户的意图策略,例如,根据用户的历史行为和当前状态来预测用户的下一步行动。机器人的辅助行为是基于Q-learning智能体和心智理论模块的输出进行选择的。
🖼️ 关键图片
📊 实验亮点
实验结果表明,配备心智理论的机器人能够显著提升用户的表现,具体而言,ToM条件下的参与者在任务完成度上优于没有ToM的机器人。此外,ToM条件下的参与者更频繁地接受机器人的辅助,并且对机器人适应、预测和识别他们意图的能力的感知程度更高。这些结果表明,心智理论能够有效提升机器人辅助行为的智能化和用户体验。
🎯 应用场景
该研究成果可应用于各种人机协作场景,例如:康复机器人辅助患者进行运动训练,工业机器人辅助工人完成装配任务,以及服务机器人辅助老年人进行日常生活。通过理解用户的意图和偏好,机器人可以提供更有效、更安全的辅助,从而提高工作效率和生活质量。未来,该技术还可扩展到更复杂的任务和环境,例如:多机器人协作和人机混合团队。
📄 摘要(原文)
The adaptation to users' preferences and the ability to infer and interpret humans' beliefs and intents, which is known as the Theory of Mind (ToM), are two crucial aspects for achieving effective human-robot collaboration. Despite its importance, very few studies have investigated the impact of adaptive robots with ToM abilities. In this work, we present an exploratory comparative study to investigate how social robots equipped with ToM abilities impact users' performance and perception. We design a two-layer architecture. The Q-learning agent on the first layer learns the robot's higher-level behaviour. On the second layer, a heuristic-based ToM infers the user's intended strategy and is responsible for implementing the robot's assistance, as well as providing the motivation behind its choice. We conducted a user study in a real-world setting, involving 56 participants who interacted with either an adaptive robot capable of ToM, or with a robot lacking such abilities. Our findings suggest that participants in the ToM condition performed better, accepted the robot's assistance more often, and perceived its ability to adapt, predict and recognise their intents to a higher degree. Our preliminary insights could inform future research and pave the way for designing more complex computation architectures for adaptive behaviour with ToM capabilities.