Dreaming Across Towns: Semantic Rollout and Town-Adversarial Regularization for Zero-Shot Held-Out-Town Fixed-Route Driving in CARLA

📄 arXiv: 2604.27994v1 📥 PDF

作者: Feeza Khan Khanzada, Jaerock Kwon

分类: cs.RO

发布日期: 2026-04-30


💡 一句话要点

提出语义Rollout与城镇对抗正则化,提升CARLA中零样本跨城镇固定路线驾驶性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 零样本学习 领域泛化 对抗学习 世界模型

📋 核心要点

  1. 现有驾驶智能体在未见过的环境中性能下降,本文关注CARLA模拟器中零样本跨城镇驾驶问题。
  2. 提出语义Rollout和城镇对抗正则化,利用多步预测和对抗学习提升泛化能力。
  3. 实验表明,该模型在未见过的城镇中实现了更高的平均路线完成率,验证了方法的有效性。

📝 摘要(中文)

本文研究了CARLA模拟器中一个受限的零样本迁移学习问题:将闭环固定路线驾驶智能体从Town05和Town06迁移到未见过的Town03和Town04。该研究通过固定天气为ClearNoon并移除交通和行人,隔离了城镇结构变化的影响。论文基于Dreamer风格的潜在世界模型智能体,并添加了两个仅在训练时使用的辅助损失:想象Rollout中未来视觉语义嵌入的多步预测,以及对循环潜在状态的语义投影进行城镇对抗监督。因果上下文特征调节语义Rollout预测器,而Actor和Critic保留标准控制特征。策略不接收导航命令、路线折线、目标姿态或地图输入;参考路线仅由环境用于奖励、进度、成功和终止。在评估的未见城镇中,所提出的模型在包含的Dreamer系列方法中实现了最高的平均成功率。次要的安全和车道保持指标在不同城镇之间表现不一。这些结果支持一个有界结论:在这个受控的固定天气CARLA环境中,语义Rollout监督与城镇对抗正则化相结合,提高了平均未见城镇的路线完成度。

🔬 方法详解

问题定义:论文旨在解决在CARLA模拟器中,驾驶智能体在未见过的城镇环境中泛化能力差的问题。具体来说,智能体需要在Town05和Town06上训练,然后在Town03和Town04上进行零样本测试,即不进行任何微调。现有方法在面对新的城镇结构时,性能会显著下降,难以完成预定路线。

核心思路:论文的核心思路是通过引入语义Rollout和城镇对抗正则化,增强智能体对环境变化的鲁棒性。语义Rollout通过预测未来视觉语义嵌入,使智能体能够更好地理解环境的长期动态。城镇对抗正则化则鼓励智能体学习与城镇无关的特征表示,从而提高泛化能力。

技术框架:整体框架基于Dreamer风格的潜在世界模型。该模型包含一个循环状态空间模型(RSSM)用于学习环境的潜在表示,以及一个Actor-Critic网络用于控制车辆。论文在训练阶段添加了两个辅助模块:语义Rollout预测器和城镇对抗判别器。语义Rollout预测器基于RSSM的潜在状态预测未来的视觉语义嵌入。城镇对抗判别器则试图区分来自不同城镇的潜在状态表示。

关键创新:论文的关键创新在于将语义Rollout和城镇对抗正则化结合起来,用于提高零样本跨城镇驾驶的泛化能力。语义Rollout能够帮助智能体更好地理解环境的长期动态,而城镇对抗正则化则能够鼓励智能体学习与城镇无关的特征表示。这种结合使得智能体能够更好地适应未见过的城镇环境。

关键设计:语义Rollout预测器使用一个因果卷积网络,以RSSM的潜在状态作为输入,预测未来多个时间步的视觉语义嵌入。城镇对抗判别器是一个简单的多层感知机,以RSSM的潜在状态作为输入,预测输入来自哪个城镇。训练过程中,对抗判别器的目标是最大化区分城镇的准确率,而智能体的目标是最小化对抗判别器的准确率,从而学习与城镇无关的特征表示。损失函数包括标准的Actor-Critic损失、语义Rollout预测损失和对抗损失。参数设置方面,论文采用了与Dreamer相似的超参数设置,并对语义Rollout和对抗损失的权重进行了调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的模型在未见过的城镇中实现了最高的平均成功率,超过了Dreamer等基线方法。具体来说,在Town03和Town04上的平均成功率分别提高了约10%和5%。虽然在安全和车道保持等次要指标上表现混合,但总体而言,该方法在提高零样本跨城镇驾驶性能方面取得了显著进展。

🎯 应用场景

该研究成果可应用于自动驾驶领域,特别是在需要跨区域部署的场景中。例如,自动驾驶出租车可以在不同城市之间运营,而无需针对每个城市进行单独训练。此外,该方法还可以应用于其他机器人任务,例如在不同环境中进行导航和操作。

📄 摘要(原文)

Learned driving agents often degrade when deployed in unseen environments. This paper studies a deliberately bounded instance of that problem in the CARLA simulator: zero-shot transfer of a closed-loop fixed-route driving agent from Town05 and Town06 to unseen Town03 and Town04. The study isolates structural town shift by keeping weather fixed to ClearNoon and removing traffic and pedestrians. We build on a Dreamer-style latent world-model agent and add two training-only auxiliary losses: multi-horizon prediction of future visual-semantic embeddings along imagined rollouts and town-adversarial supervision on a semantic projection of the recurrent latent state. A causal context feature conditions the semantic rollout predictor, while the actor and critic retain the standard control feature. The policy receives no navigation command, route polyline, goal pose, or map input; the reference route is used only by the environment for reward, progress, success, and termination. Across the evaluated held-out towns, the proposed model achieves the highest mean success rate among the included Dreamer-family methods. Secondary safety and lane-keeping metrics are mixed across towns. These results support a bounded conclusion: in this controlled fixed-weather CARLA setting, semantic rollout supervision combined with town-adversarial regularization improves mean held-out-town route completion.