Stochastic Trajectory Optimization for Robotic Skill Acquisition From a Suboptimal Demonstration

📄 arXiv: 2408.03131v4 📥 PDF

作者: Chenlin Ming, Zitong Wang, Boxuan Zhang, Zhanxiang Cao, Xiaoming Duan, Jianping He

分类: cs.RO, eess.SY

发布日期: 2024-08-06 (更新: 2025-04-18)


💡 一句话要点

提出MSTOMP算法,从次优示教轨迹中学习并优化机器人技能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人技能学习 示教学习 轨迹优化 随机轨迹优化 动态时间规整 频域分析 多策略优化

📋 核心要点

  1. 现有LfD方法难以处理具有人类偏好但动态性能较差的次优示教轨迹,机器人需要模仿形状并优化动态性能。
  2. 论文核心思想是利用优化方法搜索与示教轨迹形状相似但性能更优的轨迹,结合时域和频域方法处理轨迹噪声。
  3. 实验结果表明,所提出的MSTOMP算法在优化性能和稳定性方面优于现有方法,并在仿真和真实机器人实验中得到验证。

📝 摘要(中文)

本文提出了一种基于优化的方法,用于从次优示教轨迹中学习机器人技能。针对示教轨迹可能存在的动态性能不足问题,该方法旨在搜索一条形状与示教轨迹相似但动态性能更优的轨迹。具体而言,利用动态时间规整(DTW)量化轨迹差异,并结合碰撞代价等性能指标构建代价函数。此外,开发了多策略版本的随机轨迹优化算法(STOMP),即MSTOMP,以提高稳定性和鲁棒性。针对示教轨迹的抖动问题,采用频域增益控制方法进行去噪,并提出了一种计算效率更高的频域差异度量方法,即频谱均方误差(MSES)。理论上阐述了时域和频域方法之间的联系。最后,通过仿真和真实机器人实验验证了该方法在优化性能和稳定性方面的优势。

🔬 方法详解

问题定义:现有的Learning from Demonstration (LfD) 方法在处理次优示教轨迹时存在局限性。这些轨迹通常具有反映人类偏好的形状特征,但在动态属性(如运动速度)方面表现不佳。机器人不仅需要模仿示教轨迹的形状,还需要优化其动态性能,例如提高运动速度、降低能量消耗等。现有方法难以同时兼顾形状相似性和动态性能优化。

核心思路:本文的核心思路是通过优化方法,在保持与示教轨迹形状相似的前提下,搜索一条具有更优动态性能的轨迹。具体来说,将轨迹的形状相似性作为约束条件,将动态性能指标(如运动速度、能量消耗、碰撞代价等)作为优化目标,构建一个优化问题。通过求解该优化问题,可以得到一条既能模仿示教轨迹的形状,又能实现更优动态性能的轨迹。

技术框架:该方法主要包含以下几个阶段:1) 轨迹去噪:利用频域增益控制方法对示教轨迹进行去噪,消除抖动。2) 轨迹差异度量:使用动态时间规整(DTW)在时域量化轨迹形状的差异,并提出频谱均方误差(MSES)在频域量化轨迹差异。3) 代价函数构建:结合轨迹差异度量结果和性能指标(如碰撞代价),构建代价函数。4) 轨迹优化:使用多策略版本的随机轨迹优化算法(MSTOMP)求解优化问题,得到优化后的轨迹。

关键创新:本文的关键创新点包括:1) 提出了多策略版本的随机轨迹优化算法(MSTOMP),提高了算法的稳定性和鲁棒性。2) 提出了频谱均方误差(MSES)作为一种计算效率更高的频域轨迹差异度量方法。3) 理论上阐述了时域和频域方法之间的联系,为轨迹优化提供了更全面的视角。

关键设计:1) MSTOMP算法:在STOMP算法的基础上,引入了多个策略,每个策略对应不同的参数设置。通过在多个策略之间进行选择和组合,可以提高算法的稳定性和鲁棒性。2) 频谱均方误差(MSES):通过计算轨迹在频域上的均方误差来度量轨迹差异。相比于时域方法,MSES具有更高的计算效率。3) 代价函数:代价函数由轨迹差异度量结果和性能指标加权求和得到。权重参数需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的MSTOMP算法在优化性能和稳定性方面优于现有的STOMP算法。在仿真实验中,MSTOMP算法能够显著降低轨迹的碰撞代价和能量消耗。在真实机器人实验中,MSTOMP算法能够生成更平滑、更稳定的运动轨迹,并成功完成了复杂的装配任务。与基线方法相比,MSTOMP算法在各项指标上均取得了显著提升。

🎯 应用场景

该研究成果可应用于各种需要机器人模仿学习并优化运动性能的场景,例如:工业机器人装配、医疗机器人辅助手术、服务机器人执行复杂任务等。通过从人类示教中学习,并在此基础上进行优化,机器人可以更高效、更安全地完成任务,提高生产效率和服务质量。此外,该方法还可以用于生成更自然、更流畅的机器人运动轨迹,提升人机交互体验。

📄 摘要(原文)

Learning from Demonstration (LfD) has emerged as a crucial method for robots to acquire new skills. However, when given suboptimal task trajectory demonstrations with shape characteristics reflecting human preferences but subpar dynamic attributes such as slow motion, robots not only need to mimic the behaviors but also optimize the dynamic performance. In this work, we leverage optimization-based methods to search for a superior-performing trajectory whose shape is similar to that of the demonstrated trajectory. Specifically, we use Dynamic Time Warping (DTW) to quantify the difference between two trajectories and combine it with additional performance metrics, such as collision cost, to construct the cost function. Moreover, we develop a multi-policy version of the Stochastic Trajectory Optimization for Motion Planning (STOMP), called MSTOMP, which is more stable and robust to parameter changes. To deal with the jitter in the demonstrated trajectory, we further utilize the gain-controlling method in the frequency domain to denoise the demonstration and propose a computationally more efficient metric, called Mean Square Error in the Spectrum (MSES), that measures the trajectories' differences in the frequency domain. We also theoretically highlight the connections between the time domain and the frequency domain methods. Finally, we verify our method in both simulation experiments and real-world experiments, showcasing its improved optimization performance and stability compared to existing methods.