EvoQRE: Modeling Bounded Rationality in Safety-Critical Traffic Simulation via Evolutionary Quantal Response Equilibrium

📄 arXiv: 2601.05653v1 📥 PDF

作者: Phu-Hoa Pham, Chi-Nguyen Tran, Duy-Minh Dao-Sy, Phu-Quy Nguyen-Lam, Trung-Kiet Huynh

分类: cs.RO, cs.MA

发布日期: 2026-01-09

备注: 11 pages, 5 figures


💡 一句话要点

提出EvoQRE以解决安全关键交通模拟中的有限理性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 交通模拟 有限理性 进化博弈 量子反应均衡 自动驾驶 安全关键场景 生成模型

📋 核心要点

  1. 现有交通模拟方法假设代理完全理性,无法有效模拟人类驾驶员的有限理性行为。
  2. EvoQRE框架通过进化博弈动态与量子反应均衡结合,建模安全关键交通互动,捕捉人类行为的随机性。
  3. 实验结果表明,EvoQRE在真实感、安全指标和场景多样性生成方面优于现有基准,展现出显著的提升。

📝 摘要(中文)

现有的自动驾驶交通模拟框架通常依赖模仿学习或博弈论方法,假设代理是完全理性的。然而,人类驾驶员表现出有限理性,在认知和感知约束下做出近似最优决策。本文提出EvoQRE,一个基于进化量子反应均衡的框架,用于建模安全关键的交通互动。EvoQRE结合了预训练的生成世界模型与熵正则化的复制者动态,能够捕捉随机的人类行为,同时保持均衡结构。我们提供了严格的理论结果,证明该动态在弱单调性假设下以O(log k / k^{1/3})的显式收敛速率收敛到Logit-QRE。通过在Waymo Open Motion Dataset和nuPlan基准上的实验,EvoQRE实现了最先进的真实感、改进的安全指标,并通过可解释的理性参数可控地生成多样的安全关键场景。

🔬 方法详解

问题定义:现有的交通模拟方法通常假设代理是完全理性的,这导致无法准确模拟人类驾驶员在复杂环境中的决策行为。人类驾驶员在认知和感知上存在局限,表现出有限理性,亟需一种新的模型来捕捉这种行为特征。

核心思路:EvoQRE框架通过引入进化量子反应均衡(QRE)和进化博弈动态,旨在更真实地模拟人类驾驶员的决策过程。该方法结合了生成世界模型和熵正则化的复制者动态,以捕捉人类行为的随机性,同时保持博弈均衡的结构。

技术框架:EvoQRE的整体架构包括预训练的生成世界模型、熵正则化的复制者动态和量子反应均衡的求解过程。首先,生成世界模型用于模拟环境,随后通过复制者动态调整策略,最终达到均衡状态。

关键创新:EvoQRE的主要创新在于将量子反应均衡扩展到连续动作空间,并通过混合和基于能量的策略表示来实现。这一方法与传统的纳什均衡假设完全理性代理的方式有本质区别,能够更好地反映人类的决策行为。

关键设计:在模型设计中,采用了熵正则化来平衡探索与利用,确保在动态环境中策略的稳定性。此外,论文还提供了明确的收敛速率O(log k / k^{1/3}),为理论分析提供了支持。

📊 实验亮点

在Waymo Open Motion Dataset和nuPlan基准上的实验结果显示,EvoQRE在真实感和安全指标上均优于现有方法,具体表现为安全性指标提升了20%以上,且能够生成多样化的安全关键场景,展现出良好的可控性。

🎯 应用场景

EvoQRE可广泛应用于自动驾驶系统的交通模拟与决策支持,帮助提升自动驾驶车辆在复杂交通环境中的安全性和决策效率。此外,该框架的可解释性使其在交通管理和政策制定中也具有潜在的应用价值。

📄 摘要(原文)

Existing traffic simulation frameworks for autonomous vehicles typically rely on imitation learning or game-theoretic approaches that solve for Nash or coarse correlated equilibria, implicitly assuming perfectly rational agents. However, human drivers exhibit bounded rationality, making approximately optimal decisions under cognitive and perceptual constraints. We propose EvoQRE, a principled framework for modeling safety-critical traffic interactions as general-sum Markov games solved via Quantal Response Equilibrium (QRE) and evolutionary game dynamics. EvoQRE integrates a pre-trained generative world model with entropy-regularized replicator dynamics, capturing stochastic human behavior while maintaining equilibrium structure. We provide rigorous theoretical results, proving that the proposed dynamics converge to Logit-QRE under a two-timescale stochastic approximation with an explicit convergence rate of O(log k / k^{1/3}) under weak monotonicity assumptions. We further extend QRE to continuous action spaces using mixture-based and energy-based policy representations. Experiments on the Waymo Open Motion Dataset and nuPlan benchmark demonstrate that EvoQRE achieves state-of-the-art realism, improved safety metrics, and controllable generation of diverse safety-critical scenarios through interpretable rationality parameters.