Beyond Predefined Actions: Integrating Behavior Trees and Dynamic Movement Primitives for Robot Learning from Demonstration

📄 arXiv: 2505.08625v1 📥 PDF

作者: David Cáceres Domínguez, Erik Schaffernicht, Todor Stoyanov

分类: cs.RO

发布日期: 2025-05-13

备注: 14 pages, 6 figures, accepted (not yet published) at IAS19 2025 conference


💡 一句话要点

融合行为树与动态运动原语,实现机器人从演示中学习策略

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 机器人学习 从演示学习 行为树 动态运动原语 策略学习

📋 核心要点

  1. 行为树需要预定义的底层动作,动态运动原语缺乏高层任务逻辑,限制了机器人技能学习的灵活性。
  2. 将动态运动原语控制器集成到行为树框架中,联合学习行为树结构和动态运动原语动作,无需预定义动作。
  3. 结合行为树决策逻辑和动态运动原语运动生成,提升策略的可解释性、模块化和适应性。

📝 摘要(中文)

行为树(BTs)和动态运动原语(DMPs)等可解释的策略表示能够实现机器人从人类演示中进行技能迁移,但各自存在局限性:BTs需要专家设计的底层动作,而DMPs缺乏高层任务逻辑。本文通过将DMP控制器集成到BT框架中来解决这些限制,从单个演示中联合学习BT结构和DMP动作,从而消除了对预定义动作的需求。此外,通过结合BT决策逻辑和DMP运动生成,本文方法增强了自主系统的策略可解释性、模块化和适应性。该方法能够轻松地学习复制底层运动,并将部分演示组合成连贯且易于修改的整体策略。

🔬 方法详解

问题定义:现有机器人学习方法,特别是从演示学习(LfD)方法,通常依赖于预定义的动作库或复杂的模型。行为树(BTs)虽然具有良好的可解释性和模块化,但需要人工设计底层动作,限制了其自动化程度。动态运动原语(DMPs)擅长生成平滑的运动轨迹,但缺乏高层任务逻辑的表达能力。因此,如何让机器人能够从少量演示中学习到既具有高层逻辑又具有底层运动控制能力的策略,是一个关键问题。

核心思路:本文的核心思路是将行为树(BTs)和动态运动原语(DMPs)结合起来,利用BTs进行高层任务规划和决策,利用DMPs生成底层运动轨迹。通过联合学习BT的结构和DMP的参数,实现从少量演示中学习到完整的机器人技能。这种结合既保留了BTs的可解释性和模块化,又克服了DMPs缺乏高层逻辑的缺点。

技术框架:该方法的技术框架主要包含以下几个模块:1) 演示数据收集模块:收集人类或其它来源的机器人技能演示数据。2) 行为树结构学习模块:从演示数据中学习行为树的结构,确定任务的执行流程和决策逻辑。3) 动态运动原语参数学习模块:学习每个行为树节点对应的DMP参数,用于生成具体的运动轨迹。4) 策略执行模块:根据学习到的行为树结构和DMP参数,控制机器人执行任务。

关键创新:该方法最重要的创新点在于联合学习行为树结构和动态运动原语参数。传统的BT方法需要人工设计BT结构和底层动作,而本文方法可以自动从演示数据中学习这些信息,大大降低了人工干预的需求。此外,通过将DMP集成到BT框架中,可以实现高层任务规划和底层运动控制的无缝衔接。

关键设计:在行为树结构学习方面,可以使用基于规则或基于优化的方法。在动态运动原语参数学习方面,可以使用监督学习或强化学习的方法。损失函数的设计需要考虑运动轨迹的平滑性、任务的完成度和策略的鲁棒性。具体的网络结构取决于所使用的学习算法和任务的复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法能够从单个演示中学习到完整的机器人技能,无需预定义动作。通过实验验证,该方法在多个机器人任务上取得了良好的效果,例如:机器人抓取、机器人放置等。与传统的行为树方法相比,该方法能够自动学习行为树结构和底层动作,大大降低了人工干预的需求。

🎯 应用场景

该研究成果可应用于各种机器人自动化场景,例如:工业机器人装配、服务机器人任务执行、医疗机器人辅助手术等。通过从人类演示中学习,机器人可以快速掌握新的技能,提高生产效率和服务质量。此外,该方法的可解释性和模块化特性,使得机器人策略的调试和修改更加容易,降低了维护成本。

📄 摘要(原文)

Interpretable policy representations like Behavior Trees (BTs) and Dynamic Motion Primitives (DMPs) enable robot skill transfer from human demonstrations, but each faces limitations: BTs require expert-crafted low-level actions, while DMPs lack high-level task logic. We address these limitations by integrating DMP controllers into a BT framework, jointly learning the BT structure and DMP actions from single demonstrations, thereby removing the need for predefined actions. Additionally, by combining BT decision logic with DMP motion generation, our method enhances policy interpretability, modularity, and adaptability for autonomous systems. Our approach readily affords both learning to replicate low-level motions and combining partial demonstrations into a coherent and easy-to-modify overall policy.