Does Visual Information Play a Decisive Role in Vision-Language-Action Model Driving Behavior?

📄 arXiv: 2605.31041v1 📥 PDF

作者: Jingtao He, Hongliang Lu, Xiaoyun Qiu, Yixuan Wang, Xinhu Zheng

分类: cs.CV, cs.AI

发布日期: 2026-05-29


💡 一句话要点

提出多层次视觉扰动框架以分析VLA模型的视觉行为依赖性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-行动 自动驾驶 多模态分析 视觉扰动 行为依赖性 安全评估 系统设计

📋 核心要点

  1. 现有VLA模型在自动驾驶中的视觉信息依赖性尚不明确,缺乏有效的评估方法。
  2. 本文提出了一种多层次视觉扰动框架,系统分析视觉与行为的依赖性,涵盖多个维度的扰动。
  3. 实验结果显示,视觉基础在不同抽象层次上存在不均匀性,呼吁对VLA模型进行更深入的分析。

📝 摘要(中文)

视觉-语言-行动(VLA)模型在自动驾驶中展现出良好的能力,但其如何依赖视觉信息仍不明确。现有评估协议主要关注整体性能指标,缺乏结构化的诊断方法来量化视觉与行为的依赖性。本文提出了一种结构化的多层次视觉扰动框架,系统分析VLA模型中的视觉行为依赖性。该框架沿着通道级降解、信息级干扰和结构级修改三个维度组织受控的视觉扰动。通过在VLA驱动系统中应用该框架,评估了开放式轨迹预测和交互式闭环安全评估下的行为反应。实验结果揭示了依赖性模式的评估依赖性和不同抽象层次间的视觉基础不均匀性,呼吁对VLA驾驶模型进行更结构化的分析与设计。

🔬 方法详解

问题定义:本文旨在解决VLA模型在自动驾驶中如何依赖视觉信息的问题。现有方法主要关注整体性能,缺乏对视觉与行为依赖性的深入分析。

核心思路:提出一种结构化的多层次视觉扰动框架,通过控制不同维度的视觉扰动,系统性地分析视觉信息对驾驶行为的影响。这样的设计能够更清晰地揭示视觉信息在决策过程中的作用。

技术框架:框架包括三个主要模块:通道级降解、信息级干扰和结构级修改。每个模块针对不同层次的视觉信息进行扰动,以评估其对行为的影响。

关键创新:最重要的创新点在于引入了多层次的视觉扰动分析方法,能够系统性地量化视觉信息对行为的依赖性,这与传统的整体性能评估方法有本质区别。

关键设计:在设计中,采用了多种扰动策略,包括对输入图像的通道降解、信息丢失和结构修改,确保能够全面覆盖视觉信息的不同层次。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在不同的评估条件下,VLA模型的视觉依赖性表现出明显的差异,尤其是在不同抽象层次上,视觉基础的不均匀性影响了模型的决策能力。这一发现为未来的模型设计提供了重要的指导。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶系统的安全性提升和智能交通管理。通过深入理解视觉信息如何影响驾驶行为,可以为未来的VLA模型设计提供理论基础,进而开发出更安全、鲁棒的自动驾驶技术。

📄 摘要(原文)

Vision-Language-Action (VLA) models have demonstrated promising capability in autonomous driving, highlighting the potential of unified multimodal architectures for jointly modeling perception and planning. However, how current VLA-based driving behavior is grounded in visual information remains poorly understood. Existing evaluation protocols mainly focus on aggregate performance metrics, lacking structured and practical diagnostics to quantify visual-behavior dependency. In this work, we introduce a structured multi-level visual perturbation framework to analyze visual-behavior dependency in VLA-based driving models systematically. The framework organizes controlled visual perturbations along three complementary dimensions: channellevel degradation, information-level disruption, and structurelevel modification. We apply it to VLA-based driving systems and evaluate behavioral responses under both open-loop trajectory prediction and interactive closed-loop safety evaluation. Experimental results reveal evaluation-dependent dependency patterns and uneven visual grounding across abstraction levels. These findings call for more structured analyses and principled design of VLA driving models to better understand how visual information shapes behavior and develop safer, more robust systems.