ForSim: Stepwise Forward Simulation for Traffic Policy Fine-Tuning

📄 arXiv: 2602.01916v1 📥 PDF

作者: Keyu Chen, Wenchao Sun, Hao Cheng, Zheng Fu, Sifa Zheng

分类: cs.RO

发布日期: 2026-02-02

备注: Accepted by ICRA 2026

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

ForSim:用于交通策略微调的逐步前向仿真方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通仿真 自动驾驶 闭环仿真 多模态行为 前向仿真

📋 核心要点

  1. 现有交通仿真方法难以同时兼顾真实交通的多模态行为和智能体间的交互性,导致仿真结果与真实环境存在偏差。
  2. ForSim通过逐步闭环前向仿真,在每个时间步选择与参考轨迹最匹配的候选轨迹,并预测其他智能体的行为,从而模拟真实的交互。
  3. 实验表明,将ForSim集成到RIFT框架中,能够在提高安全性的同时,保持仿真效率、真实性和舒适性。

📝 摘要(中文)

交通仿真作为自动驾驶闭环训练和评估的基础,仍然面临两个根本挑战:开放式模仿学习引入的协变量偏移,以及反映真实交通中多模态行为的能力有限。尽管最近的框架如RIFT通过群体相对优化在一定程度上解决了这些问题,但它们的前向仿真过程在很大程度上仍然是非反应性的,导致虚拟领域内不真实的智能体交互,最终限制了仿真保真度。为了解决这些问题,我们提出了ForSim,一种逐步闭环前向仿真范式。在每个虚拟时间步,交通智能体通过物理运动学传播与参考轨迹在时空上最佳匹配的虚拟候选轨迹,从而在确保模态内一致性的同时,保留多模态行为多样性。其他智能体通过逐步预测进行更新,从而产生连贯且具有交互意识的演化。当集成到RIFT交通仿真框架中时,ForSim与群体相对优化协同工作,以微调交通策略。大量实验证实,这种集成始终提高安全性,同时保持效率、真实性和舒适性。这些结果强调了在前向仿真中建模闭环多模态交互的重要性,并提高了自动驾驶交通仿真的保真度和可靠性。

🔬 方法详解

问题定义:现有交通仿真方法,特别是基于开放式模仿学习的方法,容易产生协变量偏移,导致仿真环境与真实环境存在差异。此外,现有方法难以有效模拟真实交通中车辆的多模态行为(例如,变道、超车等)以及车辆之间的复杂交互,从而限制了仿真结果的可靠性。

核心思路:ForSim的核心思路是采用逐步闭环的前向仿真范式,在每个仿真时间步,智能体根据参考轨迹选择最优的候选轨迹,并预测其他智能体的行为。通过这种方式,ForSim能够更好地模拟智能体之间的交互,并保留多模态行为的多样性,从而提高仿真的真实性。

技术框架:ForSim框架主要包含以下几个步骤:1) 轨迹生成:为每个智能体生成多个候选轨迹;2) 轨迹选择:根据与参考轨迹的时空匹配程度,选择最优的候选轨迹;3) 状态更新:根据选择的轨迹更新智能体的状态;4) 行为预测:预测其他智能体的行为,并更新其状态。这个过程在每个仿真时间步循环进行,从而实现逐步闭环的仿真。ForSim可以集成到现有的交通仿真框架中,例如RIFT。

关键创新:ForSim的关键创新在于其逐步闭环的前向仿真范式。与传统的开环仿真方法不同,ForSim在每个时间步都考虑了智能体之间的交互,并根据参考轨迹进行轨迹选择,从而更好地模拟真实交通环境。此外,ForSim能够保留多模态行为的多样性,避免了单一行为模式的出现。

关键设计:在轨迹选择过程中,ForSim使用时空匹配度作为选择标准,即选择与参考轨迹在时间和空间上最接近的候选轨迹。行为预测可以使用各种预测模型,例如基于深度学习的模型或基于规则的模型。具体的参数设置和网络结构取决于具体的应用场景和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,将ForSim集成到RIFT框架中,能够显著提高交通仿真的安全性,同时保持效率、真实性和舒适性。具体而言,与基线方法相比,ForSim能够减少碰撞次数,提高平均速度,并降低急加速和急刹车的频率。这些结果表明,ForSim能够有效地模拟真实交通环境,并为自动驾驶算法的测试与验证提供更可靠的平台。

🎯 应用场景

ForSim可应用于自动驾驶算法的闭环测试与验证,交通策略的评估与优化,以及驾驶员行为建模等领域。通过构建更真实的交通仿真环境,ForSim能够帮助自动驾驶系统更好地适应真实世界的复杂场景,提高其安全性和可靠性。此外,ForSim还可以用于研究交通拥堵、交通事故等问题,为交通管理提供决策支持。

📄 摘要(原文)

As the foundation of closed-loop training and evaluation in autonomous driving, traffic simulation still faces two fundamental challenges: covariate shift introduced by open-loop imitation learning and limited capacity to reflect the multimodal behaviors observed in real-world traffic. Although recent frameworks such as RIFT have partially addressed these issues through group-relative optimization, their forward simulation procedures remain largely non-reactive, leading to unrealistic agent interactions within the virtual domain and ultimately limiting simulation fidelity. To address these issues, we propose ForSim, a stepwise closed-loop forward simulation paradigm. At each virtual timestep, the traffic agent propagates the virtual candidate trajectory that best spatiotemporally matches the reference trajectory through physically grounded motion dynamics, thereby preserving multimodal behavioral diversity while ensuring intra-modality consistency. Other agents are updated with stepwise predictions, yielding coherent and interaction-aware evolution. When incorporated into the RIFT traffic simulation framework, ForSim operates in conjunction with group-relative optimization to fine-tune traffic policy. Extensive experiments confirm that this integration consistently improves safety while maintaining efficiency, realism, and comfort. These results underscore the importance of modeling closed-loop multimodal interactions within forward simulation and enhance the fidelity and reliability of traffic simulation for autonomous driving. Project Page: https://currychen77.github.io/ForSim/