Reactive Motion Generation via Phase-varying Neural Potential Functions
作者: Ahmet Tekden, Dimitrios Kanoulas, Aude Billard, Yasemin Bekiroglu
分类: cs.RO
发布日期: 2026-04-29
备注: Accepted by IEEE Robotics and Automation Letters (RAL)
💡 一句话要点
提出相位可变神经势函数(PNPF),用于解决学习自演示中轨迹交叉时的运动生成问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 学习自演示 动力系统 神经势函数 相位变量 机器人控制
📋 核心要点
- 传统动力系统方法在轨迹交叉时难以区分运动方向,二阶模型对扰动敏感,基于相位的方法则缺乏对扰动的鲁棒性。
- PNPF通过引入从状态进展估计的相位变量来调节势函数,从而实现对状态重访的处理和局部向量场的生成,实现稳定控制。
- 实验表明,PNPF在点到点、周期性和6D运动任务中表现出色,尤其在具有交叉点的轨迹上优于现有方法,并具有良好的实时性和鲁棒性。
📝 摘要(中文)
本文提出了一种用于学习自演示(LfD)的相位可变神经势函数(PNPF)框架,该框架能够从少量演示中生成稳定、连续的策略。一阶动力系统(DS)对于许多点到点和周期性任务是有效的,只要为每个状态定义唯一的速度。对于具有交叉点的任务(例如,绘制“8”),通常使用二阶动力学或相位变量等扩展。然而,通过结合速度,二阶模型对交叉点附近的扰动变得敏感,因为速度被用于消除运动方向的歧义。此外,当几乎相同的位置-速度对对应于不同的前进运动时,这种消除歧义可能会失败。相比之下,基于相位的方法依赖于开环时间或相位变量,这限制了它们在扰动后恢复的能力。PNPF通过将势函数建立在直接从状态进展估计的相位变量上,而不是开环时间输入上,从而解决了这些问题。该相位变量允许系统处理状态重访,而学习到的势函数生成局部向量场,用于反应式和稳定控制。PNPF有效地推广到点到点、周期性和完整的6D运动任务,在具有交叉点的轨迹上优于现有的基线,并在外部扰动下的实时机器人操作中表现出强大的性能。
🔬 方法详解
问题定义:现有的学习自演示(LfD)方法,特别是基于动力系统(DS)的方法,在处理具有交叉点的复杂轨迹时存在局限性。二阶动力系统对交叉点附近的扰动非常敏感,而基于相位的方法在受到扰动后难以恢复。因此,需要一种能够处理状态重访,并且对扰动具有鲁棒性的运动生成方法。
核心思路:PNPF的核心思路是利用一个相位变量来调节势函数,该相位变量不是像传统方法那样基于开环时间输入,而是直接从状态的进展中估计得到。这样,系统就可以根据当前的状态来判断所处的相位,从而处理状态重访的问题,并生成合适的局部向量场。
技术框架:PNPF框架主要包含以下几个模块:1) 状态观测模块,用于获取当前的状态信息;2) 相位估计模块,用于从状态的进展中估计相位变量;3) 神经势函数模块,该模块以相位变量为输入,输出势函数;4) 运动控制模块,该模块根据势函数生成局部向量场,并控制机器人的运动。整个框架通过学习得到一个相位可变的势函数,从而实现对复杂轨迹的稳定控制。
关键创新:PNPF最重要的技术创新点在于其相位变量的估计方式。传统的基于相位的方法使用开环的时间或相位变量,这使得它们对扰动非常敏感。而PNPF通过直接从状态的进展中估计相位变量,使得系统能够根据当前的状态来判断所处的相位,从而实现对状态重访的处理和对扰动的鲁棒性。
关键设计:PNPF的关键设计包括:1) 相位估计模块的设计,需要选择合适的特征来表示状态的进展,并设计合适的算法来估计相位变量;2) 神经势函数模块的设计,需要选择合适的网络结构和损失函数来学习势函数,使得其能够生成合适的局部向量场;3) 运动控制模块的设计,需要选择合适的控制算法来根据势函数生成机器人的运动。
🖼️ 关键图片
📊 实验亮点
PNPF在多个实验中表现出优异的性能。在具有交叉点的轨迹上,PNPF明显优于现有的基线方法。在实时机器人操作实验中,PNPF在外部扰动下表现出强大的鲁棒性。此外,PNPF还能够有效地推广到点到点、周期性和完整的6D运动任务,证明了其通用性和有效性。
🎯 应用场景
PNPF可应用于各种机器人操作任务,尤其是在需要处理复杂轨迹和对扰动具有鲁棒性的场景中,例如:装配、焊接、喷涂等工业自动化任务;医疗机器人辅助手术;以及人机协作等领域。该方法能够提高机器人的自主性和适应性,使其能够更好地完成各种复杂任务。
📄 摘要(原文)
Dynamical systems (DS) methods for Learning-from-Demonstration (LfD) provide stable, continuous policies from few demonstrations. First-order dynamical systems (DS) are effective for many point-to-point and periodic tasks, as long as a unique velocity is defined for each state. For tasks with intersections (e.g., drawing an "8"), extensions such as second-order dynamics or phase variables are often used. However, by incorporating velocity, second-order models become sensitive to disturbances near intersections, as velocity is used to disambiguate motion direction. Moreover, this disambiguation may fail when nearly identical position-velocity pairs correspond to different onward motions. In contrast, phase-based methods rely on open-loop time or phase variables, which limit their ability to recover after perturbations. We introduce Phase-varying Neural Potential Functions (PNPF), an LfD framework that conditions a potential function on a phase variable which is estimated directly from state progression, rather than on open-loop temporal inputs. This phase variable allows the system to handle state revisits, while the learned potential function generates local vector fields for reactive and stable control. PNPF generalizes effectively across point-to-point, periodic, and full 6D motion tasks, outperforms existing baselines on trajectories with intersections, and demonstrates robust performance in real-time robotic manipulation under external disturbances.