A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving

作者: Liangdong Zhang, Yiming Nie, Haoyang Li, Fanjie Kong, Baobao Zhang, Shunxin Huang, Kai Fu, Chen Min, Liang Xiao

分类: cs.RO

发布日期: 2026-01-07

💡 一句话要点

OFF-EMMA：基于视觉提示的视觉-语言-动作模型，用于越野自动驾驶

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 越野自动驾驶 视觉-语言-动作模型 视觉提示 思维链 自洽性 轨迹规划 多模态融合

📋 核心要点

越野地形中的高效轨迹规划对自动驾驶车辆提出了挑战，传统方法在动态环境中适应性有限。
OFF-EMMA通过视觉提示增强空间理解，并采用COT-SC推理策略提高轨迹规划的准确性和鲁棒性。
实验表明，OFF-EMMA在RELLIS-3D数据集上显著优于现有方法，降低了L2误差和失败率。

📝 摘要（中文）

本文提出了一种名为OFF-EMMA的新型端到端多模态框架，旨在克服视觉-语言-动作（VLA）模型在越野自动驾驶场景中空间感知不足和推理不稳定的缺陷。该框架通过设计视觉提示块显式地标注输入图像，并引入具有自洽性的思维链（COT-SC）推理策略，以提高轨迹规划的准确性和鲁棒性。视觉提示块利用语义分割掩码作为视觉提示，增强预训练视觉-语言模型对复杂地形的空间理解能力。COT-SC策略通过多路径推理机制有效地减轻了异常值对规划性能的误差影响。在RELLIS-3D越野数据集上的实验结果表明，OFF-EMMA显著优于现有方法，将Qwen骨干模型的平均L2误差降低了13.3%，并将失败率从16.52%降低到6.56%。

🔬 方法详解

问题定义：论文旨在解决越野自动驾驶中，视觉-语言-动作模型（VLA）在复杂地形下空间感知能力不足和推理不稳定的问题。现有方法通常依赖复杂的多步骤流程，难以适应动态环境，且容易受到感知误差的影响，导致轨迹规划失败。

核心思路：论文的核心思路是通过引入视觉提示来增强VLA模型对地形的理解，并利用具有自洽性的思维链（COT-SC）推理策略来提高轨迹规划的鲁棒性。视觉提示能够显式地提供空间信息，COT-SC则通过多路径推理减少异常值的影响。

技术框架：OFF-EMMA框架主要包含视觉提示块和COT-SC推理策略两个核心模块。首先，视觉提示块利用语义分割掩码对输入图像进行标注，增强模型对地形的理解。然后，模型利用视觉和语言信息进行多路径推理，生成多个候选轨迹。最后，COT-SC策略对这些候选轨迹进行评估，选择最一致的轨迹作为最终规划结果。

关键创新：该论文的关键创新在于将视觉提示和COT-SC推理策略相结合，用于解决越野自动驾驶中的轨迹规划问题。视觉提示能够有效提升模型对复杂地形的感知能力，而COT-SC推理策略则能够提高规划的鲁棒性，减少误差累积。与现有方法相比，OFF-EMMA是一种端到端的解决方案，无需复杂的多步骤流程。

关键设计：视觉提示块使用预训练的语义分割模型生成分割掩码，并将其作为额外的输入信息传递给VLA模型。COT-SC策略通过采样多个推理路径，并计算这些路径之间的相似度来评估轨迹的一致性。论文使用交叉熵损失函数训练语义分割模型，并使用L2损失函数评估轨迹规划的准确性。具体的网络结构和参数设置在论文中有详细描述。

📊 实验亮点

实验结果表明，OFF-EMMA在RELLIS-3D越野数据集上取得了显著的性能提升。与基线模型Qwen相比，OFF-EMMA将平均L2误差降低了13.3%，并将失败率从16.52%降低到6.56%。这些结果表明，视觉提示和COT-SC推理策略能够有效提高越野自动驾驶的轨迹规划性能。

🎯 应用场景

该研究成果可应用于各种越野自动驾驶场景，例如农业机器人、矿业车辆、搜救机器人等。通过提高越野环境下的轨迹规划能力，可以显著提升这些车辆的自主性和安全性，降低人工干预的需求，并拓展其应用范围。未来，该技术还可以与其他感知和控制模块相结合，实现更高级别的自动驾驶功能。

📄 摘要（原文）

Efficient trajectory planning in off-road terrains presents a formidable challenge for autonomous vehicles, often necessitating complex multi-step pipelines. However, traditional approaches exhibit limited adaptability in dynamic environments. To address these limitations, this paper proposes OFF-EMMA, a novel end-to-end multimodal framework designed to overcome the deficiencies of insufficient spatial perception and unstable reasoning in visual-language-action (VLA) models for off-road autonomous driving scenarios. The framework explicitly annotates input images through the design of a visual prompt block and introduces a chain-of-thought with self-consistency (COT-SC) reasoning strategy to enhance the accuracy and robustness of trajectory planning. The visual prompt block utilizes semantic segmentation masks as visual prompts, enhancing the spatial understanding ability of pre-trained visual-language models for complex terrains. The COT- SC strategy effectively mitigates the error impact of outliers on planning performance through a multi-path reasoning mechanism. Experimental results on the RELLIS-3D off-road dataset demonstrate that OFF-EMMA significantly outperforms existing methods, reducing the average L2 error of the Qwen backbone model by 13.3% and decreasing the failure rate from 16.52% to 6.56%.

A Vision-Language-Action Model with Visual Prompt for OFF-Road Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册