CACTO-BIC: Scalable Actor-Critic Learning via Biased Sampling and GPU-Accelerated Trajectory Optimization
作者: Elisa Alboni, Pietro Noah Crestaz, Elias Fontanari, Andrea Del Prete
分类: cs.RO, math.OC
发布日期: 2026-02-23
💡 一句话要点
CACTO-BIC:基于偏置采样和GPU加速轨迹优化的可扩展Actor-Critic学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 轨迹优化 强化学习 Actor-Critic GPU加速 偏置采样 四足机器人 最优控制
📋 核心要点
- 轨迹优化在高维非凸问题中计算成本高昂,限制了其在复杂系统中的应用。
- CACTO-BIC通过偏置采样和GPU加速,提升数据效率并降低计算时间,从而实现可扩展的Actor-Critic学习。
- 实验表明,CACTO-BIC在样本效率和计算速度上优于CACTO,并能扩展到高维四足机器人控制。
📝 摘要(中文)
轨迹优化(TO)和强化学习(RL)在解决最优控制问题上各有优势。TO能高效计算局部最优解,但在非凸问题上表现不佳;RL对非凸性更鲁棒,但计算成本显著较高。CACTO通过学习一个warm-start策略来引导TO求解器找到低成本轨迹,从而结合了两者的优点。然而,可扩展性仍然是一个关键限制,因为系统复杂性的增加会显著提高TO的计算成本。本文提出了CACTO-BIC来解决这些挑战。CACTO-BIC通过利用与局部最优策略相关的价值函数的性质来偏置初始状态采样,从而提高数据效率;此外,它通过利用GPU加速来减少计算时间。经验评估表明,与CACTO相比,CACTO-BIC提高了样本效率并加快了计算速度。与PPO的比较表明,我们的方法可以在更短的时间内获得相似的解决方案。最后,在AlienGO四足机器人上的实验表明,CACTO-BIC可以扩展到高维系统,并且适用于实时应用。
🔬 方法详解
问题定义:论文旨在解决轨迹优化(TO)方法在高维、非凸优化问题中计算成本过高,导致难以扩展到复杂系统的问题。现有方法,如CACTO,虽然结合了TO和强化学习(RL)的优点,但仍然受限于TO的计算瓶颈。因此,如何降低TO的计算复杂度,提高样本效率,是本研究要解决的核心问题。
核心思路:CACTO-BIC的核心思路是通过两个关键技术来提升CACTO的性能:一是偏置采样(Biased Sampling),利用价值函数的性质来更有效地选择初始状态,从而提高数据效率;二是GPU加速,利用GPU的并行计算能力来加速TO的计算过程,从而降低计算时间。这样,CACTO-BIC既能继承CACTO结合TO和RL的优势,又能克服其可扩展性不足的缺点。
技术框架:CACTO-BIC的整体框架仍然基于Actor-Critic结构,其中Actor负责生成策略,Critic负责评估策略。与CACTO不同的是,CACTO-BIC在数据采样阶段引入了偏置采样机制,即根据价值函数对初始状态进行加权采样,使得采样更集中于有希望的区域。此外,CACTO-BIC将TO求解器的计算过程移植到GPU上,利用GPU的并行计算能力来加速TO的计算。整体流程包括:1) Actor生成策略;2) 基于偏置采样选择初始状态;3) 使用GPU加速的TO求解器优化轨迹;4) Critic评估轨迹;5) Actor和Critic根据评估结果进行更新。
关键创新:CACTO-BIC的关键创新在于偏置采样和GPU加速的结合。偏置采样通过利用价值函数的性质,使得采样更有效率,从而减少了所需的样本数量。GPU加速则通过利用GPU的并行计算能力,显著降低了TO的计算时间。与现有方法相比,CACTO-BIC在提高样本效率和降低计算时间方面都有显著优势,从而实现了更好的可扩展性。
关键设计:偏置采样的具体实现是根据价值函数对初始状态进行加权,权重与价值函数值成反比,即价值函数值越低的状态,被采样的概率越高。GPU加速的具体实现是将TO求解器的计算过程,如梯度计算、线性搜索等,移植到GPU上进行并行计算。损失函数的设计与CACTO类似,包括轨迹成本、策略正则化项等。网络结构的选择可以根据具体任务进行调整。
📊 实验亮点
实验结果表明,CACTO-BIC在样本效率和计算速度上均优于CACTO。与CACTO相比,CACTO-BIC能够以更少的样本和更短的时间获得相似的性能。与PPO相比,CACTO-BIC能够在更短的时间内获得相似的解决方案。在AlienGO四足机器人上的实验表明,CACTO-BIC能够成功控制四足机器人进行行走,并能够适应不同的地形。
🎯 应用场景
CACTO-BIC适用于需要实时控制的高维复杂系统,例如四足机器人、人形机器人、自动驾驶等。该方法能够提高控制系统的响应速度和鲁棒性,使其能够在复杂环境中稳定运行。此外,CACTO-BIC还可以应用于运动规划、路径规划等领域,为机器人提供更加高效和安全的运动轨迹。
📄 摘要(原文)
Trajectory Optimization (TO) and Reinforcement Learning (RL) offer complementary strengths for solving optimal control problems. TO efficiently computes locally optimal solutions but can struggle with non-convexity, while RL is more robust to non-convexity at the cost of significantly higher computational demands. CACTO (Continuous Actor-Critic with Trajectory Optimization) was introduced to combine these advantages by learning a warm-start policy that guides the TO solver towards low-cost trajectories. However, scalability remains a key limitation, as increasing system complexity significantly raises the computational cost of TO. This work introduces CACTO-BIC to address these challenges. CACTO-BIC improves data efficiency by biasing initial-state sampling leveraging a property of the value function associated with locally optimal policies; moreover, it reduces computation time by exploiting GPU acceleration. Empirical evaluations show improved sample efficiency and faster computation compared to CACTO. Comparisons with PPO demonstrate that our approach can achieve similar solutions in less time. Finally, experiments on the AlienGO quadruped robot demonstrate that CACTO-BIC can scale to high-dimensional systems and is suitable for real-time applications.