Jointly Learning Cost and Constraints from Demonstrations for Safe Trajectory Generation

📄 arXiv: 2405.03491v2 📥 PDF

作者: Shivam Chaubey, Francesco Verdoja, Ville Kyrki

分类: cs.RO

发布日期: 2024-05-06 (更新: 2024-09-09)

备注: (Accepted/In press) 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)

期刊: 2024 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Oct. 2024, pp. 3635-3642

DOI: 10.1109/IROS58592.2024.10802533


💡 一句话要点

提出联合学习成本函数与约束的方法,用于安全轨迹生成

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 模仿学习 约束学习 安全轨迹生成 成本函数学习 机器人操作

📋 核心要点

  1. 现有模仿学习方法在安全关键任务中存在不足,未能充分建模约束条件,导致安全性难以保证。
  2. 该论文提出一种两步优化方法,首先学习成本函数,然后在此基础上识别和学习约束条件,实现安全轨迹生成。
  3. 实验结果表明,该方法能够从演示轨迹中推断出未知约束,例如障碍物,且无需预先知道成本函数。

📝 摘要(中文)

模仿学习允许机器人复现人类行为。然而,现有方法通常忽略了对约束的建模,而约束对于保证学习技能的安全性至关重要。即使显式地对约束进行建模,这些方法也依赖于已知成本函数的假设,这限制了它们在未知成本任务中的实际应用。本文提出了一种两步优化过程,通过解耦成本函数学习和演示轨迹中未知约束的识别,来估计成本和约束。首先,通过隔离约束对演示部分的影响来识别成本函数。然后,使用约束学习方法来识别未知的约束。该方法在模拟轨迹和真实的机器人操作任务中都得到了验证。实验表明,不正确的成本估计会对学习到的约束产生影响,并展示了所提出的方法如何在没有任何初始成本知识的情况下,从演示轨迹中推断出未知的约束,例如障碍物。

🔬 方法详解

问题定义:现有模仿学习方法在处理安全轨迹生成问题时,通常面临两个主要痛点。一是忽略了对约束的显式建模,导致生成的轨迹可能违反安全规则。二是即使考虑了约束,也往往假设成本函数是已知的,这在实际应用中通常是不成立的,因为任务的真实成本函数往往难以确定。因此,如何在未知成本函数的情况下,从演示数据中学习到安全约束,是本文要解决的核心问题。

核心思路:本文的核心思路是将成本函数学习和约束学习解耦,分两步进行。首先,通过分析演示轨迹中未受约束影响的部分,来估计成本函数。然后,利用学习到的成本函数,进一步识别和学习轨迹中的约束。这种解耦的方式可以避免成本函数估计不准确对约束学习产生负面影响,从而提高约束学习的准确性和鲁棒性。

技术框架:该方法包含两个主要阶段。第一阶段是成本函数学习,通过优化一个目标函数,使得学习到的成本函数能够解释演示轨迹中未受约束影响的部分。第二阶段是约束学习,利用第一阶段学习到的成本函数,结合演示轨迹,通过约束学习算法(例如,最大间隔约束学习)来识别和学习未知的约束。这两个阶段是顺序执行的,成本函数学习的结果会影响约束学习的效果。

关键创新:该方法最重要的创新点在于将成本函数学习和约束学习解耦,并提出了一种两步优化框架来实现这一目标。与现有方法相比,该方法不需要预先知道成本函数,而是能够从演示数据中同时学习成本函数和约束,从而提高了模仿学习在实际应用中的灵活性和适用性。

关键设计:在成本函数学习阶段,可以使用各种回归方法(例如,线性回归、高斯过程回归)来学习成本函数。目标函数的设计需要考虑如何隔离约束的影响,例如,可以只使用演示轨迹中速度较慢、加速度较小的部分来学习成本函数。在约束学习阶段,可以使用最大间隔约束学习等算法,通过优化一个目标函数,使得学习到的约束能够最大程度地满足演示轨迹,同时避免违反约束。

📊 实验亮点

实验结果表明,该方法能够有效地从演示轨迹中学习到未知的约束,例如障碍物。与直接从演示数据中学习约束的方法相比,该方法能够显著提高约束学习的准确性和鲁棒性。在机器人操作任务中,该方法能够生成安全可靠的轨迹,避免与障碍物发生碰撞。

🎯 应用场景

该研究成果可应用于各种需要安全轨迹生成的机器人任务中,例如自动驾驶、无人机导航、机器人操作等。通过学习人类或其他智能体的安全驾驶或操作行为,机器人可以在复杂环境中安全可靠地完成任务。该方法还可以用于人机协作场景,帮助机器人理解人类的安全意图,从而更好地与人类协同工作。

📄 摘要(原文)

Learning from Demonstration allows robots to mimic human actions. However, these methods do not model constraints crucial to ensure safety of the learned skill. Moreover, even when explicitly modelling constraints, they rely on the assumption of a known cost function, which limits their practical usability for task with unknown cost. In this work we propose a two-step optimization process that allow to estimate cost and constraints by decoupling the learning of cost functions from the identification of unknown constraints within the demonstrated trajectories. Initially, we identify the cost function by isolating the effect of constraints on parts of the demonstrations. Subsequently, a constraint leaning method is used to identify the unknown constraints. Our approach is validated both on simulated trajectories and a real robotic manipulation task. Our experiments show the impact that incorrect cost estimation has on the learned constraints and illustrate how the proposed method is able to infer unknown constraints, such as obstacles, from demonstrated trajectories without any initial knowledge of the cost.