Efficient Real-World Autonomous Racing via Attenuated Residual Policy Optimization

作者: Raphael Trumpp, Denis Hoornaert, Mirco Theile, Marco Caccamo

分类: cs.RO, cs.AI

发布日期: 2026-03-13

🔗 代码/项目: GITHUB

💡 一句话要点

提出衰减残差策略优化算法，实现高效的真实世界自主赛车

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 残差策略学习 深度强化学习 自主赛车 衰减策略优化 特权学习

📋 核心要点

现有残差策略学习方法在自主赛车中表现良好，但部署时系统复杂且推理延迟高。
提出衰减残差策略优化($α$-RPO)，逐步衰减基础策略，生成独立的神经策略，降低系统复杂性。
在模拟和真实赛车实验中，$α$-RPO降低了系统复杂性，并提高了驾驶性能。

📝 摘要（中文）

残差策略学习(RPL)通过深度强化学习(DRL)优化静态基础策略，在各种机器人应用中表现出强大的性能。在自主赛车领域，RPL的有效性尤为突出，该领域是真实世界DRL的一个具有挑战性的基准。然而，部署基于RPL的控制器会引入系统复杂性并增加推理延迟。本文提出了一种RPL的扩展方法，称为衰减残差策略优化($α$-RPO)。与标准RPL不同，$α$-RPO通过逐步衰减基础策略来产生一个独立的神经策略，该基础策略最初用于引导学习。此外，这种机制实现了一种特权学习形式，允许基础策略使用最终部署不需要的传感器模态。$α$-RPO被设计为与PPO无缝集成，确保在策略优化期间动态补偿基础控制器的衰减影响。通过构建一个围绕它的1:10比例自主赛车框架来评估$α$-RPO。在模拟和零样本真实世界转移到Roboracer赛车中，$α$-RPO不仅降低了系统复杂性，而且提高了驾驶性能，证明了其在机器人部署中的实用性。

🔬 方法详解

问题定义：现有残差策略学习（RPL）方法虽然在自主赛车等机器人应用中表现出色，但其依赖于基础策略和学习策略的组合，导致系统复杂性增加，推理延迟增大，不利于实际部署。此外，如何有效利用基础策略的先验知识，并在学习过程中逐步摆脱对基础策略的依赖也是一个挑战。

核心思路：本文的核心思路是通过衰减残差策略优化（$α$-RPO）逐步降低基础策略的影响，最终得到一个独立的、高性能的神经策略。通过引入衰减因子 $α$，在训练过程中逐渐减小基础策略的权重，使学习策略能够自主学习并超越基础策略的性能。这种方法既利用了基础策略的引导作用，又避免了最终部署时对基础策略的依赖。

技术框架：$α$-RPO框架主要包含以下几个部分：1）基础策略：提供初始的控制策略，可以利用专家知识或传统算法设计；2）学习策略：一个深度神经网络，用于学习残差控制量，以优化整体性能；3）衰减机制：通过衰减因子 $α$ 逐步降低基础策略的影响；4）PPO优化器：用于优化学习策略的参数，使其能够更好地适应环境并超越基础策略。整体流程是，在训练初期，基础策略起主导作用，随着训练的进行，$α$ 逐渐减小，学习策略的作用逐渐增强，最终学习策略完全取代基础策略。

关键创新：$α$-RPO的关键创新在于其衰减机制。与传统的RPL方法不同，$α$-RPO不是简单地将基础策略和学习策略进行线性组合，而是通过动态调整衰减因子 $α$ 来控制基础策略的影响。这种方法允许学习策略在训练初期利用基础策略的引导，并在后期逐步摆脱对基础策略的依赖，从而学习到更优的策略。此外，该方法还允许基础策略使用特权信息，进一步提升了学习效率。

关键设计：$α$-RPO与PPO算法无缝集成，利用PPO的优势进行策略优化。衰减因子 $α$ 的选择至关重要，通常采用线性衰减或指数衰减的方式，从1逐渐减小到0。损失函数的设计需要考虑基础策略和学习策略的贡献，通常采用加权损失函数，其中权重由 $α$ 决定。网络结构的选择也需要根据具体任务进行调整，可以采用卷积神经网络（CNN）处理图像输入，或采用循环神经网络（RNN）处理时序数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，$α$-RPO在模拟和真实赛车环境中均取得了显著的性能提升。在零样本真实世界转移实验中，$α$-RPO不仅降低了系统复杂性，而且相比于基线方法，驾驶性能得到了显著提高，证明了其在实际机器人部署中的有效性。具体性能数据未在摘要中给出，需参考论文正文。

🎯 应用场景

该研究成果可应用于各种需要自主控制的机器人系统，例如无人驾驶车辆、无人机、机器人手臂等。通过利用先验知识和逐步学习，可以快速训练出高性能的控制策略，降低开发成本和部署难度。此外，该方法还可以应用于其他强化学习任务，例如游戏AI、金融交易等。

📄 摘要（原文）

Residual policy learning (RPL), in which a learned policy refines a static base policy using deep reinforcement learning (DRL), has shown strong performance across various robotic applications. Its effectiveness is particularly evident in autonomous racing, a domain that serves as a challenging benchmark for real-world DRL. However, deploying RPL-based controllers introduces system complexity and increases inference latency. We address this by introducing an extension of RPL named attenuated residual policy optimization ($α$-RPO). Unlike standard RPL, $α$-RPO yields a standalone neural policy by progressively attenuating the base policy, which initially serves to bootstrap learning. Furthermore, this mechanism enables a form of privileged learning, where the base policy is permitted to use sensor modalities not required for final deployment. We design $α$-RPO to integrate seamlessly with PPO, ensuring that the attenuated influence of the base controller is dynamically compensated during policy optimization. We evaluate $α$-RPO by building a framework for 1:10-scaled autonomous racing around it. In both simulation and zero-shot real-world transfer to Roboracer cars, $α$-RPO not only reduces system complexity but also improves driving performance compared to baselines - demonstrating its practicality for robotic deployment. Our code is available at: https://github.com/raphajaner/arpo_racing.

Efficient Real-World Autonomous Racing via Attenuated Residual Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理