StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving
作者: Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz
分类: cs.RO
发布日期: 2026-03-10
备注: 8 pages
💡 一句话要点
StyleVLA:面向自动驾驶的风格感知视觉语言动作模型
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 视觉语言模型 轨迹生成 驾驶风格 物理信息约束
📋 核心要点
- 现有VLA模型主要生成通用无碰撞轨迹,忽略了驾驶风格的多样性,且常将轨迹生成视为token预测,导致动作在运动学上不可行。
- StyleVLA通过引入物理信息,结合运动学一致性约束和连续回归头,生成多样且物理上合理的驾驶行为。
- 实验结果表明,StyleVLA在成功率、物理可行性和风格一致性方面显著优于Gemini-3-Pro等模型,证明了其有效性。
📝 摘要(中文)
视觉语言模型(VLM)连接了视觉感知和语言推理。在自动驾驶(AD)领域,这种协同作用促成了视觉语言动作(VLA)模型的出现,该模型将高层次的多模态理解转化为驾驶行为,通常表示为未来的轨迹。然而,现有的VLA模型主要生成通用的无碰撞轨迹。除了避免碰撞之外,适应不同的驾驶风格(例如,运动型、舒适型)对于个性化驾驶至关重要。此外,许多方法将轨迹生成视为简单的token预测,这可能会产生运动学上不可行的动作。为了解决这些限制,我们提出了StyleVLA,一个物理信息驱动的VLA框架,用于生成多样且物理上合理的驾驶行为。我们引入了一种混合损失,它将运动学一致性约束与连续回归头相结合,以提高轨迹的可行性。为了训练基于Qwen3-VL-4B的StyleVLA,我们构建了一个大规模的指令数据集,包含超过1.2k个场景,76k个鸟瞰图(BEV)样本和42k个第一人称视角(FPV)样本,以及五种驾驶风格的真实轨迹和自然语言指令。实验表明,我们的40亿参数StyleVLA显著优于专有模型(例如,Gemini-3-Pro)和最先进的VLA模型。使用衡量成功率、物理可行性和风格一致性的综合驾驶评分,StyleVLA在BEV上达到0.55,在FPV上达到0.51,而Gemini-3-Pro分别为0.32和0.35。这些结果表明,一个专门的、物理信息驱动的、轻量级模型可以在特定领域的任务上超越闭源模型。
🔬 方法详解
问题定义:现有VLA模型在自动驾驶中存在两个主要问题:一是缺乏对驾驶风格的考虑,生成的轨迹过于通用;二是轨迹生成方法常采用简单的token预测,忽略了运动学约束,导致生成的轨迹在物理上不可行。这些问题限制了自动驾驶系统的个性化和安全性。
核心思路:StyleVLA的核心思路是利用物理信息来指导VLA模型的训练,从而生成既符合驾驶风格又满足运动学约束的轨迹。通过引入混合损失函数,同时考虑运动学一致性和风格指令,使得模型能够学习到更加合理和自然的驾驶行为。
技术框架:StyleVLA的整体框架基于Qwen3-VL-4B,并在此基础上进行了改进。主要包含以下几个模块:1)视觉语言编码器:用于提取视觉和语言特征;2)轨迹生成器:基于编码后的特征生成未来轨迹;3)混合损失函数:包含运动学一致性损失和风格损失,用于约束轨迹的生成。训练过程中,模型接收BEV或FPV图像以及自然语言指令作为输入,输出符合指令和物理约束的轨迹。
关键创新:StyleVLA的关键创新在于:1)引入了物理信息,通过运动学一致性损失来约束轨迹的生成,保证了轨迹的物理可行性;2)提出了混合损失函数,将运动学一致性损失和风格损失相结合,使得模型能够同时学习到驾驶风格和物理约束;3)构建了一个大规模的指令数据集,包含多种驾驶风格和场景,为模型的训练提供了充足的数据支持。
关键设计:StyleVLA的关键设计包括:1)运动学一致性损失:采用连续回归头预测轨迹点,并计算相邻轨迹点之间的加速度和角速度,通过约束这些物理量来保证轨迹的平滑性和可行性;2)风格损失:通过对比生成的轨迹与目标风格轨迹之间的差异来衡量风格一致性;3)数据集构建:收集了包含多种驾驶风格(如运动型、舒适型)和复杂交通场景的数据,并标注了自然语言指令,用于指导模型的训练。
📊 实验亮点
StyleVLA在BEV和FPV两种输入模式下均显著优于Gemini-3-Pro等基线模型。在综合驾驶评分(包含成功率、物理可行性和风格一致性)方面,StyleVLA在BEV上达到0.55,在FPV上达到0.51,而Gemini-3-Pro分别为0.32和0.35。这些结果表明,StyleVLA在生成高质量、风格化的驾驶轨迹方面具有显著优势。
🎯 应用场景
StyleVLA可应用于自动驾驶汽车,实现个性化驾驶体验,根据驾驶员的偏好和指令生成不同的驾驶风格轨迹。此外,该技术还可用于驾驶员辅助系统,提供更安全、舒适的驾驶辅助功能。未来,StyleVLA有望在机器人导航、游戏AI等领域发挥作用。
📄 摘要(原文)
Vision Language Models (VLMs) bridge visual perception and linguistic reasoning. In Autonomous Driving (AD), this synergy has enabled Vision Language Action (VLA) models, which translate high-level multimodal understanding into driving behaviors, typically represented as future trajectories. However, existing VLA models mainly generate generic collision-free trajectories. Beyond collision avoidance, adapting to diverse driving styles (e.g., sporty, comfortable) is essential for personalized driving. Moreover, many methods treat trajectory generation as naive token prediction, which can produce kinematically infeasible actions. To address these limitations, we present StyleVLA, a physics-informed VLA framework for generating diverse and physically plausible driving behaviors. We introduce a hybrid loss that combines a kinematic consistency constraint with a continuous regression head to improve trajectory feasibility. To train StyleVLA, built on Qwen3-VL-4B, we construct a large-scale instruction dataset with over 1.2k scenarios, 76k Bird's Eye View (BEV) samples, and 42k First Person View (FPV) samples, with ground-truth trajectories for five driving styles and natural-language instructions. Experiments show that our 4B-parameter StyleVLA significantly outperforms proprietary models (e.g., Gemini-3-Pro) and state-of-the-art VLA models. Using a composite driving score measuring success rate, physical feasibility, and style adherence, StyleVLA achieves 0.55 on BEV and 0.51 on FPV, versus 0.32 and 0.35 for Gemini-3-Pro. These results show that a specialized, physics-informed, lightweight model can surpass closed-source models on domain-specific tasks.