Learning Rollout from Sampling:An R1-Style Tokenized Traffic Simulation Model

作者: Ziyan Wang, Peng Chen, Ding Li, Chiwei Li, Qichao Zhang, Zhongpu Xia, Guizhen Yu

分类: cs.RO, cs.AI

发布日期: 2026-03-26

💡 一句话要点

R1Sim：一种基于强化学习和熵引导采样的token化交通仿真模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 交通仿真 强化学习 熵引导采样 自动驾驶 多智能体系统

📋 核心要点

现有基于下一token预测的交通仿真方法缺乏对次优区域中潜在有价值运动token的主动探索。
R1Sim利用运动token熵模式指导探索，通过熵引导的自适应采样机制关注高不确定性token。
R1Sim通过群体相对策略优化和安全感知的奖励设计，在Waymo Sim Agent基准上取得了优异性能。

📝 摘要（中文）

本文提出了一种名为R1Sim的token化交通仿真策略，旨在从人类驾驶演示中学习多样且高保真的交通仿真，用于自动驾驶评估。该方法基于下一token预测（NTP）范式，并引入了基于运动token熵模式的强化学习探索。R1Sim采用熵引导的自适应采样机制，关注先前被忽视的、具有高不确定性和高潜力的运动token。此外，利用安全感知的奖励设计，通过群体相对策略优化（GRPO）来优化运动行为。实验结果表明，R1Sim在Waymo Sim Agent基准测试中取得了与最先进方法相媲美的性能，实现了现实、安全和多样化的多智能体行为。

🔬 方法详解

问题定义：现有基于下一token预测（NTP）的交通仿真方法，虽然可以通过监督微调（SFT）迭代改进，但限制了对潜在有价值的运动token的主动探索，尤其是在次优区域。这些方法难以平衡探索和利用，导致仿真结果的多样性和真实性不足。

核心思路：论文的核心思路是利用运动token的熵值来指导探索过程。熵值可以反映token的不确定性，高熵值的token代表模型对其预测置信度较低，但可能蕴含着更大的改进潜力。通过优先探索这些高熵值的token，可以更有效地发现新的、有价值的运动模式，从而提高仿真的多样性和真实性。

技术框架：R1Sim的整体框架包含以下几个主要模块：1) 运动Token化：将连续的车辆运动轨迹离散化为一系列运动token。2) 熵估计：计算每个运动token的熵值，反映其不确定性。3) 熵引导自适应采样：根据token的熵值动态调整采样概率，优先选择高熵值的token。4) 群体相对策略优化（GRPO）：使用强化学习方法，基于安全感知的奖励函数，优化车辆的运动策略。

关键创新：R1Sim的关键创新在于引入了熵引导的自适应采样机制，并将其与强化学习相结合。传统的强化学习方法通常采用均匀采样或基于奖励的采样，而R1Sim则根据token的不确定性进行采样，从而更有效地探索潜在的运动模式。此外，使用GRPO进行策略优化，考虑了群体行为的相对性，有助于生成更协调的多智能体行为。

关键设计：熵引导自适应采样机制的关键在于如何根据熵值调整采样概率。论文中可能采用了一种softmax函数或其他类似的函数，将熵值映射到采样概率。安全感知的奖励函数的设计也至关重要，需要综合考虑车辆的安全、效率和舒适性等因素。GRPO的具体实现细节，例如如何定义群体以及如何计算相对策略，也是影响性能的关键因素。

🖼️ 关键图片

📊 实验亮点

R1Sim在Waymo Sim Agent基准测试中取得了与最先进方法相媲美的性能。具体而言，R1Sim在多智能体行为的真实性、安全性和多样性方面均表现出色。实验结果表明，R1Sim能够生成更符合人类驾驶习惯的交通流，并有效避免碰撞等安全事故。虽然摘要中没有给出具体的性能数据和提升幅度，但“competitive performance”表明R1Sim至少达到了现有最佳水平。

🎯 应用场景

R1Sim可应用于自动驾驶系统的仿真测试与验证，帮助评估自动驾驶算法在各种交通场景下的性能和安全性。通过生成更真实、多样化的交通流，R1Sim能够提高仿真测试的覆盖率和有效性，从而加速自动驾驶技术的研发和部署。此外，该方法还可用于交通规划和管理，例如预测交通拥堵、优化信号灯配时等。

📄 摘要（原文）

Learning diverse and high-fidelity traffic simulations from human driving demonstrations is crucial for autonomous driving evaluation. The recent next-token prediction (NTP) paradigm, widely adopted in large language models (LLMs), has been applied to traffic simulation and achieves iterative improvements via supervised fine-tuning (SFT). However, such methods limit active exploration of potentially valuable motion tokens, particularly in suboptimal regions. Entropy patterns provide a promising perspective for enabling exploration driven by motion token uncertainty. Motivated by this insight, we propose a novel tokenized traffic simulation policy, R1Sim, which represents an initial attempt to explore reinforcement learning based on motion token entropy patterns, and systematically analyzes the impact of different motion tokens on simulation outcomes. Specifically, we introduce an entropy-guided adaptive sampling mechanism that focuses on previously overlooked motion tokens with high uncertainty yet high potential. We further optimize motion behaviors using Group Relative Policy Optimization (GRPO), guided by a safety-aware reward design. Overall, these components enable a balanced exploration-exploitation trade-off through diverse high-uncertainty sampling and group-wise comparative estimation, resulting in realistic, safe, and diverse multi-agent behaviors. Extensive experiments on the Waymo Sim Agent benchmark demonstrate that R1Sim achieves competitive performance compared to state-of-the-art methods.

Learning Rollout from Sampling:An R1-Style Tokenized Traffic Simulation Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理