Contraction Actor-Critic: Contraction Metric-Guided Reinforcement Learning for Robust Path Tracking

📄 arXiv: 2506.15700v1 📥 PDF

作者: Minjae Cho, Hiroyasu Tsukamoto, Huy Trong Tran

分类: cs.LG, cs.AI

发布日期: 2025-05-28


💡 一句话要点

提出Contraction Actor-Critic算法,用于未知动力学下的鲁棒路径跟踪。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 控制收缩度量 路径跟踪 机器人控制 Actor-Critic算法

📋 核心要点

  1. 现有控制收缩度量(CCMs)方法依赖已知动力学模型,且难以保证轨迹的全局最优性,限制了其应用。
  2. 提出Contraction Actor-Critic (CAC)算法,将CCMs与强化学习结合,利用CCMs提供动态信息反馈,学习最优跟踪策略。
  3. 通过模拟和真实机器人实验验证了CAC算法的有效性,表明其能够学习到鲁棒且最优的路径跟踪策略。

📝 摘要(中文)

控制收缩度量(CCMs)提供了一个框架,用于共同合成控制器和相应的收缩度量——一种正定的黎曼度量,在该度量下,闭环系统保证能够增量指数稳定。然而,合成的控制器仅确保系统的所有轨迹收敛到单个轨迹,因此没有对整个轨迹施加任何最优性概念。此外,构建CCMs需要已知的动力学模型,并且在解决无限维凸可行性问题上需要付出大量努力,这限制了其在高维度不确定性复杂系统中的可扩展性。为了解决这些问题,我们建议将CCMs集成到强化学习(RL)中,其中CCMs为学习控制策略提供动态信息反馈,从而在未知动力学下最小化累积跟踪误差。我们证明了我们的算法,称为收缩Actor-Critic (CAC),在形式上增强了CCMs的能力,以在完全自动化的设置中提供一组具有RL长期最优性的收缩策略。给定一个预训练的动力学模型,CAC同时学习一个收缩度量生成器(CMG)——生成一个收缩度量——并使用actor-critic算法来学习由该度量指导的最优跟踪策略。我们通过广泛的实证研究,包括模拟和真实世界的机器人实验,证明了我们的算法相对于已建立的基线的有效性,并为将收缩理论纳入RL提供了理论依据。

🔬 方法详解

问题定义:论文旨在解决在未知动力学条件下,如何实现机器人或其他复杂系统鲁棒且最优的路径跟踪控制问题。现有基于控制收缩度量(CCMs)的方法虽然能保证系统的增量指数稳定性,但依赖于精确的动力学模型,且难以实现全局最优的轨迹控制。此外,求解CCMs本身也是一个复杂的优化问题。

核心思路:论文的核心思想是将CCMs的局部稳定性分析能力与强化学习(RL)的全局优化能力相结合。通过CCMs提供动态信息反馈,引导RL算法学习控制策略,从而在未知动力学条件下实现鲁棒且最优的路径跟踪。

技术框架:CAC算法的整体框架包含两个主要模块:收缩度量生成器(CMG)和Actor-Critic算法。首先,利用预训练的动力学模型训练CMG,使其能够生成合适的收缩度量。然后,使用Actor-Critic算法学习控制策略,该策略以CMG生成的收缩度量作为指导,优化长期累积跟踪误差。

关键创新:该论文的关键创新在于将控制理论中的收缩度量概念引入到强化学习中,并设计了相应的算法框架。与传统的RL算法相比,CAC算法能够利用动力学信息,提高学习效率和控制策略的鲁棒性。与传统的CCMs方法相比,CAC算法无需精确的动力学模型,并且能够实现全局最优的轨迹控制。

关键设计:CMG通常是一个神经网络,其输入是系统的状态,输出是收缩度量矩阵。Actor-Critic算法可以使用任何标准的实现,例如TD3或SAC。关键在于如何将CMG生成的收缩度量融入到Actor-Critic算法的奖励函数中,论文中具体的设计未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过模拟和真实机器人实验验证了CAC算法的有效性。实验结果表明,CAC算法在路径跟踪任务中优于传统的RL算法,能够学习到更鲁棒和最优的控制策略。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于机器人路径规划、无人驾驶、飞行器控制等领域。通过学习鲁棒的控制策略,可以提高系统在复杂环境下的适应性和可靠性,降低对精确动力学模型的依赖,具有重要的实际应用价值和潜在的商业前景。

📄 摘要(原文)

Control contraction metrics (CCMs) provide a framework to co-synthesize a controller and a corresponding contraction metric -- a positive-definite Riemannian metric under which a closed-loop system is guaranteed to be incrementally exponentially stable. However, the synthesized controller only ensures that all the trajectories of the system converge to one single trajectory and, as such, does not impose any notion of optimality across an entire trajectory. Furthermore, constructing CCMs requires a known dynamics model and non-trivial effort in solving an infinite-dimensional convex feasibility problem, which limits its scalability to complex systems featuring high dimensionality with uncertainty. To address these issues, we propose to integrate CCMs into reinforcement learning (RL), where CCMs provide dynamics-informed feedback for learning control policies that minimize cumulative tracking error under unknown dynamics. We show that our algorithm, called contraction actor-critic (CAC), formally enhances the capability of CCMs to provide a set of contracting policies with the long-term optimality of RL in a fully automated setting. Given a pre-trained dynamics model, CAC simultaneously learns a contraction metric generator (CMG) -- which generates a contraction metric -- and uses an actor-critic algorithm to learn an optimal tracking policy guided by that metric. We demonstrate the effectiveness of our algorithm relative to established baselines through extensive empirical studies, including simulated and real-world robot experiments, and provide a theoretical rationale for incorporating contraction theory into RL.