CLIP-RLDrive: Human-Aligned Autonomous Driving via CLIP-Based Reward Shaping in Reinforcement Learning

📄 arXiv: 2412.16201v1 📥 PDF

作者: Erfan Doroudian, Hamid Taghavifar

分类: cs.RO, cs.AI, cs.LG, eess.SY

发布日期: 2024-12-17


💡 一句话要点

CLIP-RLDrive:利用CLIP奖励塑造,实现符合人类驾驶习惯的自动驾驶决策

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 奖励塑造 CLIP模型 视觉-语言模型

📋 核心要点

  1. 强化学习在自动驾驶中面临奖励函数设计的挑战,手动设计难以捕捉复杂场景下人类驾驶的偏好。
  2. CLIP-RLDrive利用CLIP模型理解视觉和文本信息,构建奖励塑造函数,引导自动驾驶车辆学习人类驾驶行为。
  3. 该方法在复杂城市驾驶场景,特别是无信号交叉路口,提升了自动驾驶车辆的决策能力,使其更符合人类驾驶习惯。

📝 摘要(中文)

本文提出了一种新的基于强化学习(RL)的框架CLIP-RLDrive,旨在提高自动驾驶汽车(AV)在复杂城市驾驶场景,尤其是在无信号交叉路口中的决策能力。为了实现这一目标,通过基于对比语言-图像预训练(CLIP)的奖励塑造,使自动驾驶汽车的决策与人类驾驶偏好对齐。强化学习方案的主要难点之一是设计合适的奖励模型,由于交互和驾驶场景的复杂性,手动实现通常具有挑战性。为了解决这个问题,本文利用视觉-语言模型(VLM),特别是CLIP,来构建基于视觉和文本线索的额外奖励模型。

🔬 方法详解

问题定义:自动驾驶车辆在复杂城市环境,尤其是在无信号灯路口,如何做出符合人类驾驶习惯的决策是一个关键问题。现有的强化学习方法依赖于手动设计的奖励函数,难以捕捉人类驾驶的复杂性和细微差别,导致自动驾驶行为不够自然和安全。

核心思路:本论文的核心思路是利用CLIP模型理解视觉场景和自然语言描述之间的对应关系,从而构建一个能够反映人类驾驶偏好的奖励函数。通过CLIP模型,可以将驾驶场景的视觉信息与描述人类驾驶行为的文本信息对齐,从而为强化学习提供更丰富、更符合人类直觉的奖励信号。

技术框架:CLIP-RLDrive框架主要包含以下几个模块:1) 环境感知模块:负责获取驾驶场景的视觉信息;2) CLIP模型:用于提取视觉信息和文本描述的特征,并计算它们之间的相似度;3) 奖励塑造模块:基于CLIP模型输出的相似度,生成额外的奖励信号,用于引导强化学习智能体学习人类驾驶行为;4) 强化学习智能体:基于环境信息和奖励信号,学习最优的驾驶策略。整体流程是,智能体在环境中执行动作,环境返回新的状态和原始奖励,CLIP模型根据当前状态和预定义的文本描述计算相似度,生成额外的奖励,最终智能体根据总奖励更新策略。

关键创新:最重要的技术创新点在于利用CLIP模型进行奖励塑造,将视觉和语言信息融合到强化学习的奖励函数中。与传统的基于规则或人工设计的奖励函数相比,CLIP-based奖励塑造能够更好地捕捉人类驾驶的复杂性和细微差别,从而使自动驾驶车辆的行为更自然、更安全。

关键设计:论文的关键设计包括:1) CLIP模型的选择和微调:选择合适的CLIP模型,并根据具体的驾驶场景进行微调,以提高其对驾驶场景的理解能力;2) 文本描述的设计:设计能够准确描述人类驾驶行为的文本描述,例如“保持安全距离”、“礼让行人”等;3) 奖励函数的权重设计:合理设置CLIP-based奖励和其他奖励的权重,以平衡学习效率和行为的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了CLIP-RLDrive的有效性。实验结果表明,与传统的强化学习方法相比,CLIP-RLDrive能够显著提高自动驾驶车辆在无信号交叉路口的安全性和效率。具体而言,在模拟驾驶环境中,CLIP-RLDrive能够减少碰撞事故的发生,并提高车辆的平均行驶速度。此外,实验还表明,CLIP-RLDrive能够使自动驾驶车辆的行为更符合人类驾驶习惯,例如更倾向于礼让行人。

🎯 应用场景

CLIP-RLDrive具有广泛的应用前景,可用于提升自动驾驶汽车在复杂城市环境中的决策能力,提高驾驶安全性和舒适性。该方法还可以应用于其他机器人领域,例如人机协作、服务机器人等,使机器人能够更好地理解人类意图,并做出符合人类习惯的决策。此外,该研究为利用视觉-语言模型进行强化学习提供了新的思路,具有重要的学术价值。

📄 摘要(原文)

This paper presents CLIP-RLDrive, a new reinforcement learning (RL)-based framework for improving the decision-making of autonomous vehicles (AVs) in complex urban driving scenarios, particularly in unsignalized intersections. To achieve this goal, the decisions for AVs are aligned with human-like preferences through Contrastive Language-Image Pretraining (CLIP)-based reward shaping. One of the primary difficulties in RL scheme is designing a suitable reward model, which can often be challenging to achieve manually due to the complexity of the interactions and the driving scenarios. To deal with this issue, this paper leverages Vision-Language Models (VLMs), particularly CLIP, to build an additional reward model based on visual and textual cues.