Driver-WM: A Driver-Centric Traffic-Conditioned Latent World Model for In-Cabin Dynamics Rollout
作者: Haozhuang Chi, Daosheng Qiu, Hao Su, Haochen Liu, Zirui Li, Haoruo Zhang, Chen Lv
分类: cs.RO, cs.AI, cs.CV
发布日期: 2026-05-06
💡 一句话要点
提出Driver-WM,用于预测驾驶员舱内动态,实现人车协同安全过渡。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 驾驶员行为预测 人车交互 世界模型 因果推理 自动驾驶
📋 核心要点
- 现有驾驶世界模型忽略了驾驶员舱内动态预测,限制了人车协同驾驶的安全性。
- Driver-WM通过双流架构和门控因果注入机制,实现了外部交通环境到内部驾驶员状态的因果预测。
- 实验表明,Driver-WM在长时程预测和语义对齐方面表现出色,并支持对机制响应的系统分析。
📝 摘要(中文)
为了实现安全的L2/L3级自动驾驶,需要在共享控制切换期间预测人与车辆的交互反应。现有驾驶世界模型主要关注外部环境预测,而舱内智能仍以识别为主,缺乏对驾驶员动态的多步预测能力。本文提出了Driver-WM,一个以驾驶员为中心的潜在世界模型,能够根据外部交通环境有因果地展开舱内动态预测。该模型统一了物理运动学预测与行为和情感语义识别。Driver-WM在由冻结的视觉-语言特征构建的紧凑潜在空间中运行,采用双流架构分别编码外部交通和内部驾驶员状态。通过门控因果注入机制定向耦合这两个信息流,该机制使用学习到的向量门来调节外部环境扰动,同时严格执行时间因果关系。在多任务辅助驾驶基准测试中,Driver-WM对反应性高运动机动实现了鲁棒的长时程几何预测,并提高了驾驶员和交通状态的语义对齐。此外,显式的外部到内部条件作用允许进行受控的测试时干预,以系统地分析机制响应。
🔬 方法详解
问题定义:现有驾驶世界模型主要关注车辆外部环境的预测,忽略了驾驶员在舱内的行为、情感等动态变化。这导致在L2/L3级自动驾驶的共享控制切换过程中,无法准确预测驾驶员的反应,从而影响驾驶安全性。现有方法缺乏对驾驶员状态的多步预测能力,且难以建立外部交通环境与驾驶员内部状态之间的因果关系。
核心思路:Driver-WM的核心思路是构建一个以驾驶员为中心的潜在世界模型,该模型能够根据外部交通环境的变化,预测驾驶员在舱内的行为和情感变化。通过将外部交通环境和内部驾驶员状态分别编码,并利用门控因果注入机制建立两者之间的因果关系,从而实现对驾驶员动态的准确预测。这种设计能够更好地模拟人车交互过程,提高自动驾驶系统的安全性。
技术框架:Driver-WM采用双流架构,包括外部交通流和内部驾驶员流。外部交通流负责编码车辆周围的交通环境信息,内部驾驶员流负责编码驾驶员的行为、情感等状态信息。这两个信息流在潜在空间中进行交互,通过门控因果注入机制,将外部交通环境的信息注入到内部驾驶员流中,从而影响驾驶员的状态预测。整个框架包括视觉-语言特征提取、双流编码、门控因果注入和状态解码等模块。
关键创新:Driver-WM的关键创新在于提出了门控因果注入机制,该机制能够有效地建立外部交通环境与内部驾驶员状态之间的因果关系。通过学习一个向量门,该机制能够选择性地将外部环境的扰动注入到内部驾驶员流中,同时严格保证时间上的因果关系。这种机制能够更好地模拟真实的人车交互过程,提高驾驶员状态预测的准确性。
关键设计:Driver-WM使用预训练的视觉-语言模型提取外部交通环境和内部驾驶员状态的特征,并将这些特征映射到紧凑的潜在空间中。门控因果注入机制使用一个多层感知机(MLP)来学习向量门,该向量门控制外部环境信息注入到内部驾驶员流的强度。损失函数包括运动学预测损失、语义识别损失和因果关系约束损失,用于优化模型的预测精度和因果关系建模能力。
🖼️ 关键图片
📊 实验亮点
Driver-WM在多任务辅助驾驶基准测试中表现出色,实现了鲁棒的长时程几何预测,并提高了驾驶员和交通状态的语义对齐。实验结果表明,Driver-WM能够准确预测驾驶员在反应性高运动机动中的行为,并能够通过显式的外部到内部条件作用,系统地分析机制响应。具体性能数据未知。
🎯 应用场景
Driver-WM可应用于高级驾驶辅助系统(ADAS)和自动驾驶系统,提升人车协同驾驶的安全性。通过预测驾驶员在不同交通场景下的反应,系统可以更智能地进行干预,避免潜在的危险情况。此外,该模型还可用于驾驶员行为分析和个性化驾驶辅助,根据驾驶员的习惯和状态提供定制化的辅助功能。
📄 摘要(原文)
Safe L2/L3 driving automation requires anticipating human-in-the-loop reactions during shared-control transitions. While most driving world models forecast the external environment, in-cabin intelligence remains strictly recognition-oriented and lacks multi-step rollout capabilities for driver dynamics. We introduce Driver-WM, a driver-centric latent world model that rolls out in-cabin dynamics causally conditioned on out-cabin traffic context. This formulation unifies physical kinematics forecasting with auxiliary behavioral and emotional semantic recognition. Operating in a compact latent space constructed from frozen vision-language features, Driver-WM adopts a dual-stream architecture to separately encode external traffic and internal driver states. These streams are directionally coupled via a gated causal injection mechanism, which uses a learned vector gate to modulate external contextual perturbations while strictly enforcing temporal causality. Evaluations on a multi-task assistive driving benchmark demonstrate that Driver-WM yields robust long-horizon geometric forecasting for reactive high-motion maneuvers and improves semantic alignment for both driver and traffic states. Finally, the explicit external-to-internal conditioning allows for controlled test-time interventions to systematically analyze mechanism responses.