Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

📄 arXiv: 2603.25740v1 📥 PDF

作者: Zehao Wang, Huaide Jiang, Shuaiwu Dong, Yuping Wang, Hang Qiu, Jiachen Li

分类: cs.RO, cs.AI, cs.CV, cs.LG, cs.MA

发布日期: 2026-03-26

备注: IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR 2026); Project website: https://dmw-cvpr.github.io/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Drive My Way,对齐视觉-语言-动作模型以实现个性化驾驶

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化驾驶 视觉-语言-动作模型 用户嵌入 Bench2Drive 自然语言指令

📋 核心要点

  1. 现有自动驾驶系统难以适应个体驾驶偏好和理解自然语言指令,导致驾驶体验缺乏个性化。
  2. DMW框架通过学习用户嵌入来捕捉长期驾驶习惯,并结合自然语言指令进行实时调整,实现个性化驾驶。
  3. 在Bench2Drive上的实验表明,DMW能有效适应驾驶风格指令,用户研究也验证了其驾驶行为的个性化特征。

📝 摘要(中文)

人类驾驶行为本质上是个人化的,它受到长期习惯和短期意图的影响。个体在不同的情况下,如加速、刹车、并道、让行和超车等方面存在差异。然而,现有的端到端自动驾驶系统要么针对通用目标进行优化,要么依赖于固定的驾驶模式,缺乏适应个体偏好或解释自然语言意图的能力。为了解决这一差距,我们提出了Drive My Way (DMW),一个个性化的视觉-语言-动作(VLA)驾驶框架,它与用户的长期驾驶习惯对齐,并适应实时的用户指令。DMW从我们收集的跨多个真实驾驶员和条件的个性化驾驶数据集中学习用户嵌入,并在规划期间以此嵌入为策略提供条件,而自然语言指令提供额外的短期指导。在Bench2Drive基准上的闭环评估表明,DMW改进了风格指令适应性,用户研究表明,其生成的行为可以被识别为每个驾驶员自己的风格,突出了个性化作为以人为中心的自动驾驶的关键能力。我们的数据和代码可在https://dmw-cvpr.github.io/上找到。

🔬 方法详解

问题定义:现有端到端自动驾驶系统通常优化通用目标或采用固定驾驶模式,无法根据不同驾驶员的习惯和偏好进行个性化调整,也难以理解和执行自然语言形式的驾驶指令。这导致自动驾驶系统在实际应用中缺乏灵活性和适应性。

核心思路:DMW的核心在于学习一个用户嵌入(User Embedding),该嵌入能够捕捉每个驾驶员独特的驾驶风格。通过将这个用户嵌入作为策略网络的输入,DMW能够生成更符合个体驾驶习惯的驾驶行为。同时,DMW还利用自然语言指令作为短期指导,进一步提升驾驶策略的灵活性和适应性。

技术框架:DMW框架包含以下几个主要模块:1) 个性化驾驶数据集:收集多位驾驶员在不同场景下的驾驶数据,用于学习用户嵌入。2) 用户嵌入学习模块:利用收集到的数据,学习每个驾驶员的独特嵌入表示。3) 视觉-语言-动作模型:该模型以视觉输入(如摄像头图像)、语言指令和用户嵌入作为输入,输出驾驶动作。4) 闭环评估环境:在Bench2Drive基准上进行闭环测试,评估DMW的性能。

关键创新:DMW的关键创新在于将用户嵌入的概念引入到端到端自动驾驶系统中,从而实现了个性化驾驶。与传统的基于规则或通用目标优化的方法不同,DMW能够根据每个驾驶员的驾驶习惯进行调整,提供更自然和舒适的驾驶体验。此外,结合自然语言指令,DMW能够更好地理解用户的意图,并做出相应的驾驶决策。

关键设计:用户嵌入的学习方式是关键设计之一,论文可能采用了对比学习或自监督学习等方法来训练用户嵌入。损失函数的设计也至关重要,可能包括模仿学习损失、强化学习损失以及用于对齐语言指令和驾驶动作的损失函数。具体的网络结构(例如Transformer或LSTM)的选择也会影响模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DMW在Bench2Drive基准测试中表现出色,能够有效适应不同的驾驶风格指令。用户研究表明,DMW生成的驾驶行为能够被识别为特定驾驶员的个人风格,证明了其个性化驾驶能力。具体的性能提升数据(例如,在特定指标上的改进百分比)需要在论文中查找。

🎯 应用场景

DMW框架可应用于各种自动驾驶场景,例如个性化定制的自动驾驶出租车、辅助驾驶系统等。通过学习用户的驾驶习惯和偏好,DMW能够提供更安全、舒适和个性化的驾驶体验。此外,结合自然语言交互,DMW可以更好地理解用户的意图,实现更智能的驾驶决策。未来,该技术有望推动自动驾驶技术的普及和应用。

📄 摘要(原文)

Human driving behavior is inherently personal, which is shaped by long-term habits and influenced by short-term intentions. Individuals differ in how they accelerate, brake, merge, yield, and overtake across diverse situations. However, existing end-to-end autonomous driving systems either optimize for generic objectives or rely on fixed driving modes, lacking the ability to adapt to individual preferences or interpret natural language intent. To address this gap, we propose Drive My Way (DMW), a personalized Vision-Language-Action (VLA) driving framework that aligns with users' long-term driving habits and adapts to real-time user instructions. DMW learns a user embedding from our personalized driving dataset collected across multiple real drivers and conditions the policy on this embedding during planning, while natural language instructions provide additional short-term guidance. Closed-loop evaluation on the Bench2Drive benchmark demonstrates that DMW improves style instruction adaptation, and user studies show that its generated behaviors are recognizable as each driver's own style, highlighting personalization as a key capability for human-centered autonomous driving. Our data and code are available at https://dmw-cvpr.github.io/.