Efficient Real-World Autonomous Racing via Attenuated Residual Policy Optimization

📄 arXiv: 2603.12960v1 📥 PDF

作者: Raphael Trumpp, Denis Hoornaert, Mirco Theile, Marco Caccamo

分类: cs.RO, cs.AI

发布日期: 2026-03-13

🔗 代码/项目: GITHUB


💡 一句话要点

提出衰减残差策略优化算法,实现高效的真实世界自主赛车

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 残差策略学习 深度强化学习 自主赛车 衰减策略优化 特权学习

📋 核心要点

  1. 现有残差策略学习方法在自主赛车中表现良好,但部署时系统复杂且推理延迟高。
  2. 提出衰减残差策略优化($α$-RPO),逐步衰减基础策略,生成独立的神经策略,降低系统复杂性。
  3. 在模拟和真实赛车实验中,$α$-RPO降低了系统复杂性,并提高了驾驶性能。

📝 摘要(中文)

残差策略学习(RPL)通过深度强化学习(DRL)优化静态基础策略,在各种机器人应用中表现出强大的性能。在自主赛车领域,RPL的有效性尤为突出,该领域是真实世界DRL的一个具有挑战性的基准。然而,部署基于RPL的控制器会引入系统复杂性并增加推理延迟。本文提出了一种RPL的扩展方法,称为衰减残差策略优化($α$-RPO)。与标准RPL不同,$α$-RPO通过逐步衰减基础策略来产生一个独立的神经策略,该基础策略最初用于引导学习。此外,这种机制实现了一种特权学习形式,允许基础策略使用最终部署不需要的传感器模态。$α$-RPO被设计为与PPO无缝集成,确保在策略优化期间动态补偿基础控制器的衰减影响。通过构建一个围绕它的1:10比例自主赛车框架来评估$α$-RPO。在模拟和零样本真实世界转移到Roboracer赛车中,$α$-RPO不仅降低了系统复杂性,而且提高了驾驶性能,证明了其在机器人部署中的实用性。

🔬 方法详解

问题定义:现有残差策略学习(RPL)方法虽然在自主赛车等机器人应用中表现出色,但其依赖于基础策略和学习策略的组合,导致系统复杂性增加,推理延迟增大,不利于实际部署。此外,如何有效利用基础策略的先验知识,并在学习过程中逐步摆脱对基础策略的依赖也是一个挑战。

核心思路:本文的核心思路是通过衰减残差策略优化($α$-RPO)逐步降低基础策略的影响,最终得到一个独立的、高性能的神经策略。通过引入衰减因子 $α$,在训练过程中逐渐减小基础策略的权重,使学习策略能够自主学习并超越基础策略的性能。这种方法既利用了基础策略的引导作用,又避免了最终部署时对基础策略的依赖。

技术框架:$α$-RPO框架主要包含以下几个部分:1)基础策略:提供初始的控制策略,可以利用专家知识或传统算法设计;2)学习策略:一个深度神经网络,用于学习残差控制量,以优化整体性能;3)衰减机制:通过衰减因子 $α$ 逐步降低基础策略的影响;4)PPO优化器:用于优化学习策略的参数,使其能够更好地适应环境并超越基础策略。整体流程是,在训练初期,基础策略起主导作用,随着训练的进行,$α$ 逐渐减小,学习策略的作用逐渐增强,最终学习策略完全取代基础策略。

关键创新:$α$-RPO的关键创新在于其衰减机制。与传统的RPL方法不同,$α$-RPO不是简单地将基础策略和学习策略进行线性组合,而是通过动态调整衰减因子 $α$ 来控制基础策略的影响。这种方法允许学习策略在训练初期利用基础策略的引导,并在后期逐步摆脱对基础策略的依赖,从而学习到更优的策略。此外,该方法还允许基础策略使用特权信息,进一步提升了学习效率。

关键设计:$α$-RPO与PPO算法无缝集成,利用PPO的优势进行策略优化。衰减因子 $α$ 的选择至关重要,通常采用线性衰减或指数衰减的方式,从1逐渐减小到0。损失函数的设计需要考虑基础策略和学习策略的贡献,通常采用加权损失函数,其中权重由 $α$ 决定。网络结构的选择也需要根据具体任务进行调整,可以采用卷积神经网络(CNN)处理图像输入,或采用循环神经网络(RNN)处理时序数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,$α$-RPO在模拟和真实赛车环境中均取得了显著的性能提升。在零样本真实世界转移实验中,$α$-RPO不仅降低了系统复杂性,而且相比于基线方法,驾驶性能得到了显著提高,证明了其在实际机器人部署中的有效性。具体性能数据未在摘要中给出,需参考论文正文。

🎯 应用场景

该研究成果可应用于各种需要自主控制的机器人系统,例如无人驾驶车辆、无人机、机器人手臂等。通过利用先验知识和逐步学习,可以快速训练出高性能的控制策略,降低开发成本和部署难度。此外,该方法还可以应用于其他强化学习任务,例如游戏AI、金融交易等。

📄 摘要(原文)

Residual policy learning (RPL), in which a learned policy refines a static base policy using deep reinforcement learning (DRL), has shown strong performance across various robotic applications. Its effectiveness is particularly evident in autonomous racing, a domain that serves as a challenging benchmark for real-world DRL. However, deploying RPL-based controllers introduces system complexity and increases inference latency. We address this by introducing an extension of RPL named attenuated residual policy optimization ($α$-RPO). Unlike standard RPL, $α$-RPO yields a standalone neural policy by progressively attenuating the base policy, which initially serves to bootstrap learning. Furthermore, this mechanism enables a form of privileged learning, where the base policy is permitted to use sensor modalities not required for final deployment. We design $α$-RPO to integrate seamlessly with PPO, ensuring that the attenuated influence of the base controller is dynamically compensated during policy optimization. We evaluate $α$-RPO by building a framework for 1:10-scaled autonomous racing around it. In both simulation and zero-shot real-world transfer to Roboracer cars, $α$-RPO not only reduces system complexity but also improves driving performance compared to baselines - demonstrating its practicality for robotic deployment. Our code is available at: https://github.com/raphajaner/arpo_racing.