Offline Reinforcement Learning using Human-Aligned Reward Labeling for Autonomous Emergency Braking in Occluded Pedestrian Crossing
作者: Vinal Asodia, Zhenhua Feng, Saber Fallah
分类: cs.RO, cs.LG
发布日期: 2025-04-11
备注: 13 pages, 9 figures, 1 table
💡 一句话要点
提出一种基于人类对齐奖励标签的离线强化学习方法,用于解决遮挡行人穿越场景下的自动紧急制动问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 自动驾驶 奖励标签生成 人类对齐 紧急制动
📋 核心要点
- 真实驾驶数据集缺乏奖励标签,阻碍了离线强化学习在自动驾驶中的应用,需要一种方法生成高质量的奖励信号。
- 该方法提出一种人类对齐的奖励标签生成流程,通过语义分割分析激活自适应安全组件,确保车辆在潜在碰撞中优先考虑安全。
- 实验表明,生成的奖励标签与模拟奖励标签吻合良好,使用该标签训练的驾驶策略性能与其他基线方法相比具有竞争力。
📝 摘要(中文)
本文提出了一种新颖的生成人类对齐奖励标签的流程,旨在提升自动驾驶系统的训练效果,尤其是在利用真实驾驶数据集时。由于现有数据集缺乏有意义的奖励标签,该流程通过生成反映人类判断和安全考量的标签来解决这一问题。该流程包含一个自适应安全组件,通过分析语义分割图激活,使自动驾驶车辆在潜在碰撞场景中优先考虑安全性而非效率。该流程应用于具有不同行人交通流量的遮挡行人穿越场景,使用合成和模拟数据。结果表明,生成的奖励标签与模拟奖励标签非常吻合。当使用行为近端策略优化算法训练驾驶策略时,结果与其他基线相比具有竞争力。这证明了该方法在生成可靠且与人类对齐的奖励信号方面的有效性,从而促进了在模拟环境之外并通过强化学习训练与人类价值观对齐的自动驾驶系统。
🔬 方法详解
问题定义:论文旨在解决在遮挡行人穿越场景下,如何利用离线强化学习训练自动紧急制动系统的问题。现有的真实驾驶数据集通常缺乏明确的奖励信号,这使得直接使用离线强化学习算法训练自动驾驶策略变得困难。因此,如何为离线数据生成高质量、与人类驾驶行为对齐的奖励标签是关键挑战。
核心思路:论文的核心思路是设计一个能够生成与人类驾驶员安全意识对齐的奖励标签的流程。该流程通过分析场景的语义信息,特别是行人是否被遮挡以及潜在的碰撞风险,来动态调整奖励函数,使得车辆在危险情况下能够优先采取安全措施,例如紧急制动。这种方法旨在弥补离线数据集中奖励信号缺失的不足,从而使离线强化学习能够有效地学习到安全的驾驶策略。
技术框架:该方法主要包含以下几个模块:1) 语义分割模块:用于识别场景中的行人和其他关键对象,并生成语义分割图。2) 自适应安全组件:基于语义分割图分析潜在的碰撞风险,并动态调整奖励函数。当检测到潜在碰撞风险时,该组件会激活,并给予车辆采取安全措施(如紧急制动)更高的奖励。3) 奖励标签生成模块:根据车辆的行为和场景的安全性,生成最终的奖励标签。该模块综合考虑了车辆的效率(例如,行驶速度)和安全性(例如,避免碰撞),并根据自适应安全组件的输出进行调整。4) 离线强化学习训练模块:使用生成的奖励标签和离线数据集,训练自动驾驶策略。论文采用了行为近端策略优化(Behavior Proximal Policy Optimisation, BPPO)算法进行训练。
关键创新:该方法最重要的技术创新点在于其自适应安全组件。该组件能够根据场景的语义信息动态调整奖励函数,使得车辆在潜在碰撞风险较高的情况下能够优先考虑安全性。这种方法与传统的固定奖励函数方法不同,后者可能无法有效地应对复杂和动态的驾驶场景。此外,该方法还能够生成与人类驾驶行为对齐的奖励标签,从而使得离线强化学习能够更好地学习到安全的驾驶策略。
关键设计:自适应安全组件的关键设计在于如何准确地评估潜在的碰撞风险。论文通过分析语义分割图中的行人位置、车辆速度和距离等信息,来计算碰撞概率。当碰撞概率超过某个阈值时,自适应安全组件会激活,并给予车辆采取安全措施更高的奖励。奖励函数的设计综合考虑了车辆的效率和安全性,并根据自适应安全组件的输出进行调整。例如,当自适应安全组件激活时,车辆采取紧急制动可以获得更高的奖励,而保持高速行驶则会受到惩罚。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法生成的奖励标签与模拟环境中的奖励标签高度一致,验证了该方法的有效性。使用生成的奖励标签训练的自动驾驶策略,在遮挡行人穿越场景下的性能与其他基线方法相比具有竞争力,证明了该方法能够有效地提升自动驾驶系统的安全性。
🎯 应用场景
该研究成果可应用于自动驾驶系统的开发和测试,尤其是在缺乏明确奖励信号的真实驾驶数据集中。通过生成人类对齐的奖励标签,可以利用离线强化学习训练出更安全、更可靠的自动驾驶策略。此外,该方法还可以用于评估自动驾驶系统的安全性,并识别潜在的安全漏洞。未来,该技术有望推广到其他机器人和控制系统领域。
📄 摘要(原文)
Effective leveraging of real-world driving datasets is crucial for enhancing the training of autonomous driving systems. While Offline Reinforcement Learning enables the training of autonomous vehicles using such data, most available datasets lack meaningful reward labels. Reward labeling is essential as it provides feedback for the learning algorithm to distinguish between desirable and undesirable behaviors, thereby improving policy performance. This paper presents a novel pipeline for generating human-aligned reward labels. The proposed approach addresses the challenge of absent reward signals in real-world datasets by generating labels that reflect human judgment and safety considerations. The pipeline incorporates an adaptive safety component, activated by analyzing semantic segmentation maps, allowing the autonomous vehicle to prioritize safety over efficiency in potential collision scenarios. The proposed pipeline is applied to an occluded pedestrian crossing scenario with varying levels of pedestrian traffic, using synthetic and simulation data. The results indicate that the generated reward labels closely match the simulation reward labels. When used to train the driving policy using Behavior Proximal Policy Optimisation, the results are competitive with other baselines. This demonstrates the effectiveness of our method in producing reliable and human-aligned reward signals, facilitating the training of autonomous driving systems through Reinforcement Learning outside of simulation environments and in alignment with human values.