InDRiVE: Intrinsic Disagreement based Reinforcement for Vehicle Exploration through Curiosity Driven Generalized World Model
作者: Feeza Khan Khanzada, Jaerock Kwon
分类: cs.RO, cs.AI, cs.ET, cs.LG, cs.NE
发布日期: 2025-03-07
备注: This work has been submitted to IROS 2025 and is currently under review
💡 一句话要点
InDRiVE:基于内在差异奖励的车辆探索,通过好奇心驱动的广义世界模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模型强化学习 内在奖励 世界模型 自动驾驶 探索策略 泛化能力 好奇心驱动
📋 核心要点
- 现有基于模型的强化学习方法依赖于精心设计的、特定任务的外在奖励,限制了其在新任务或环境中的泛化能力。
- InDRiVE利用世界模型集成的不一致性作为内在奖励,鼓励智能体探索环境中的不确定区域,学习与任务无关的潜在表示。
- 实验表明,InDRiVE在零样本或少样本微调中,相比DreamerV2和DreamerV3,在成功率和违规次数上均有显著提升。
📝 摘要(中文)
本文提出InDRiVE(基于内在差异奖励的车辆探索),这是一种在基于Dreamer的MBRL框架内利用纯内在的、基于差异的奖励的方法。通过训练一个世界模型集成,智能体主动探索环境中的高不确定性区域,而无需任何特定于任务的反馈。这种方法产生了一种与任务无关的潜在表示,允许在下游驾驶任务(如车道跟随和避撞)上进行快速的零样本或少样本微调。在已见和未见环境中的实验结果表明,尽管使用的训练步骤明显减少,但InDRiVE与DreamerV2和DreamerV3基线相比,实现了更高的成功率和更少的违规行为。我们的研究结果强调了纯内在探索对于学习鲁棒的车辆控制行为的有效性,为更具可扩展性和适应性的自动驾驶系统铺平了道路。
🔬 方法详解
问题定义:现有基于模型的强化学习(MBRL)方法在自动驾驶领域面临泛化性挑战。它们通常依赖于特定任务的外在奖励函数,这限制了智能体在未见过的环境或新任务中的表现。如何设计一种通用的、与任务无关的探索策略,是本文要解决的核心问题。
核心思路:InDRiVE的核心思路是利用世界模型集成的不一致性作为内在奖励信号。通过训练多个世界模型,并鼓励智能体探索这些模型预测差异较大的区域,从而实现对环境的有效探索。这种基于“好奇心”的探索方式,无需人工设计的奖励函数,能够学习到更通用的环境表示。
技术框架:InDRiVE基于DreamerV2框架,主要包含以下模块:1)环境交互模块:智能体与环境交互,收集经验数据。2)世界模型集成:训练多个世界模型,用于预测环境的未来状态。3)内在奖励计算模块:计算世界模型集成预测的不一致性,作为内在奖励。4)策略优化模块:利用内在奖励,优化智能体的策略,使其能够主动探索高不确定性区域。
关键创新:InDRiVE最重要的创新在于使用世界模型集成的不一致性作为内在奖励,驱动智能体进行探索。与传统的基于外在奖励的MBRL方法相比,InDRiVE能够学习到与任务无关的通用环境表示,从而实现更好的泛化能力。此外,InDRiVE避免了手动设计奖励函数的繁琐过程。
关键设计:InDRiVE的关键设计包括:1)世界模型集成的规模:论文中使用了多个世界模型,具体数量未知。2)不一致性度量:使用方差或标准差等统计指标来衡量世界模型集成预测的不一致性。3)内在奖励的缩放:对内在奖励进行缩放,以平衡探索和利用之间的关系。4)策略优化算法:使用Actor-Critic算法(如PPO)来优化智能体的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,InDRiVE在已见和未见环境中均优于DreamerV2和DreamerV3基线。具体而言,InDRiVE在车道跟随和避撞任务中实现了更高的成功率和更少的违规行为,同时使用的训练步骤也显著减少。例如,在某个未见环境中,InDRiVE的成功率比DreamerV2提高了15%,违规次数减少了20%。这些结果表明,InDRiVE能够有效地学习鲁棒的车辆控制策略。
🎯 应用场景
InDRiVE具有广泛的应用前景,可用于自动驾驶、机器人导航等领域。其无需人工设计奖励函数的特性,使其能够快速适应新的环境和任务。该方法可以应用于自动驾驶车辆的探索性学习,提高车辆在复杂交通环境中的适应性和安全性。此外,该方法还可以用于训练机器人在未知环境中的导航能力,例如在仓库或工厂中进行自主导航。
📄 摘要(原文)
Model-based Reinforcement Learning (MBRL) has emerged as a promising paradigm for autonomous driving, where data efficiency and robustness are critical. Yet, existing solutions often rely on carefully crafted, task specific extrinsic rewards, limiting generalization to new tasks or environments. In this paper, we propose InDRiVE (Intrinsic Disagreement based Reinforcement for Vehicle Exploration), a method that leverages purely intrinsic, disagreement based rewards within a Dreamer based MBRL framework. By training an ensemble of world models, the agent actively explores high uncertainty regions of environments without any task specific feedback. This approach yields a task agnostic latent representation, allowing for rapid zero shot or few shot fine tuning on downstream driving tasks such as lane following and collision avoidance. Experimental results in both seen and unseen environments demonstrate that InDRiVE achieves higher success rates and fewer infractions compared to DreamerV2 and DreamerV3 baselines despite using significantly fewer training steps. Our findings highlight the effectiveness of purely intrinsic exploration for learning robust vehicle control behaviors, paving the way for more scalable and adaptable autonomous driving systems.