Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

📄 arXiv: 2604.03023 📥 PDF

作者: Siwei Ju, Jan Tauberschmidt, Oleg Arenz, Peter van Vliet, Jan Peters

分类: cs.RO

发布日期: 2026-04-06


💡 一句话要点

提出基于Receding-Horizon Credit Assignment的Behavior-Constrained强化学习,用于高性能控制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 行为约束 Receding-Horizon 模仿学习 高性能控制 赛车模拟 轨迹预测

📋 核心要点

  1. 现有强化学习方法难以兼顾高性能和行为一致性,模仿学习则受限于专家数据质量,难以突破。
  2. 提出行为约束强化学习框架,利用receding-horizon预测机制建模未来轨迹,并以参考轨迹为条件,学习专家行为分布。
  3. 在赛车模拟中,该方法在性能和模仿质量上均超越基线,并在驾驶员在环仿真中验证了策略的可靠性。

📝 摘要(中文)

本文提出了一种行为约束强化学习框架,旨在提升控制策略性能的同时,显式控制与专家行为的偏差。强化学习虽然能发现高性能策略,但常偏离期望的人类行为;而模仿学习受限于演示数据质量,难以超越专家水平。该框架通过引入receding-horizon预测机制,建模短期未来轨迹,在训练期间提供前瞻性奖励,从而改进演示数据。为应对人类行为在扰动和变化条件下的自然变异性,策略以参考轨迹为条件,使其能够表示专家一致行为的分布,而非单一确定性目标。在高保真赛车模拟中,使用专业车手的数据进行评估,结果表明,所学策略在保持与专家驾驶行为高度一致的同时,实现了具有竞争力的单圈时间,在性能和模仿质量方面均优于基线方法。在驾驶员在环仿真中进行了以人为本的评估,表明学习到的策略重现了与顶级专业赛车手反馈一致的、依赖于设置的驾驶特性。这些结果表明,该方法能够学习既优化又符合行为的高性能控制策略,并可作为复杂控制系统中人类决策的可靠替代。

🔬 方法详解

问题定义:论文旨在解决强化学习在高动态控制任务中,难以同时保证高性能和与专家行为一致性的问题。现有方法要么难以超越专家水平(模仿学习),要么会产生与人类直觉不符的控制策略(传统强化学习)。痛点在于缺乏一种能够有效利用专家知识,并在探索中保持行为合理性的学习框架。

核心思路:核心思路是结合行为约束和receding-horizon credit assignment。行为约束确保学习到的策略不会过度偏离专家行为,而receding-horizon机制则通过预测未来轨迹,为策略提供更长远的回报信号,从而提升性能。通过以参考轨迹为条件,策略能够学习专家行为的分布,应对环境变化。

技术框架:整体框架包含以下几个主要模块:1) 行为约束模块:通过某种损失函数(具体形式未知)惩罚策略与专家行为的偏差。2) Receding-Horizon Credit Assignment模块:利用模型预测未来一段时间内的轨迹,并根据预测轨迹的质量给予奖励。3) 参考轨迹条件化模块:将参考轨迹作为策略的输入,使策略能够学习专家行为的分布。4) 强化学习算法:使用某种强化学习算法(具体算法未知)训练策略。

关键创新:关键创新在于将行为约束、receding-horizon credit assignment和参考轨迹条件化相结合,形成一个完整的学习框架。这种结合使得策略既能学习到高性能的控制策略,又能保持与专家行为的高度一致性。与现有方法的本质区别在于,该方法不仅关注即时奖励,还考虑了未来轨迹的影响,并显式地控制了策略与专家行为的偏差。

关键设计:论文中涉及的关键设计细节包括:1) Receding-horizon的长度如何选择?2) 如何设计行为约束的损失函数?3) 如何选择合适的参考轨迹?4) 如何设计策略网络结构,使其能够有效地利用参考轨迹信息?这些细节的具体实现方式在论文中可能有所描述,但在此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在高保真赛车模拟中取得了显著成果。学习到的策略在保持与专家驾驶行为高度一致的同时,实现了具有竞争力的单圈时间,在性能和模仿质量方面均优于基线方法。此外,在驾驶员在环仿真中,学习到的策略重现了与顶级专业赛车手反馈一致的、依赖于设置的驾驶特性,验证了策略的可靠性。

🎯 应用场景

该研究成果可应用于各种需要高性能和行为一致性的控制系统,例如自动驾驶、机器人操作、飞行控制等。通过学习专业人员的驾驶行为,可以开发出更安全、更可靠的自动驾驶系统。此外,该方法还可以用于训练机器人执行复杂任务,例如医疗手术、精密制造等,提高工作效率和精度。

📄 摘要(原文)

Learning high-performance control policies that remain consistent with expert behavior is a fundamental challenge in robotics. Reinforcement learning can discover high-performing strategies but often departs from desirable human behavior, whereas imitation learning is limited by demonstration quality and struggles to improve beyond expert data. We propose a behavior-constrained reinforcement learning framework that improves beyond demonstrations while explicitly controlling deviation from expert behavior. Because expert-consistent behavior in dynamic control is inherently trajectory-level, we introduce a receding-horizon predictive mechanism that models short-term future trajectories and provides look-ahead rewards during training. To account for the natural variability of human behavior under disturbances and changing conditions, we further condition the policy on reference trajectories, allowing it to represent a distribution of expert-consistent behaviors rather than a single deterministic target. Empirically, we evaluate the approach in high-fidelity race car simulation using data from professional drivers, a domain characterized by extreme dynamics and narrow performance margins. The learned policies achieve competitive lap times while maintaining close alignment with expert driving behavior, outperforming baseline methods in both performance and imitation quality. Beyond standard benchmarks, we conduct human-grounded evaluation in a driver-in-the-loop simulator and show that the learned policies reproduce setup-dependent driving characteristics consistent with the feedback of top-class professional race drivers. These results demonstrate that our method enables learning high-performance control policies that are both optimal and behavior-consistent, and can serve as reliable surrogates for human decision-making in complex control systems.