Operating Within the Operational Design Domain: Zero-Shot Perception with Vision-Language Models

📄 arXiv: 2605.07649v1 📥 PDF

作者: Berkehan Ünal, Dierend Hauke, Fazlija Dren, Plachetka Christopher

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-05-08

备注: 8 pages, 4 figures


💡 一句话要点

利用视觉语言模型实现零样本运行设计域(ODD)感知,提升自动驾驶系统的安全性与合规性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 运行设计域 自动驾驶安全 零样本学习 提示工程 思维链推理 感知合规性

📋 核心要点

  1. 自动驾驶系统需严格遵守运行设计域(ODD)规范,但传统感知模型难以快速适应不断演变的ODD定义与法规要求。
  2. 论文提出利用视觉语言模型(VLM)的零样本推理能力,通过思维链提示与角色分解策略,实现对ODD要素的灵活感知。
  3. 实验表明,该方法在ODD分类与检测任务中表现优异,为自动驾驶系统的安全审计与合规性验证提供了高效的感知方案。

📝 摘要(中文)

近年来,自动驾驶系统(ADS)的研究已趋于成熟,但大规模应用仍面临严格的安全法规挑战。运行设计域(ODD)定义了自动驾驶代理的功能边界,对其进行可靠感知是安全实施与审计的核心。视觉语言模型(VLM)结合了视觉识别与语言推理能力,无需特定任务训练数据,展现出适应ODD感知的潜力。本文旨在评估VLM作为零样本“ODD传感器”的可行性,主要贡献包括:一、对四种VLM在自定义数据集及Mapillary Vistas上的零样本ODD分类与检测进行了实证研究及失效分析;二、对零样本优化策略进行了消融实验,并提供成本性能分析;三、提供了一套可复用的提示词模板及适配指南。研究表明,基于定义的思维链提示(CoT)结合角色分解策略效果最优,为安全关键应用中的透明化ODD感知奠定了基础。

🔬 方法详解

问题定义:自动驾驶系统在特定ODD内运行是安全合规的前提,但现有感知模型通常针对固定类别训练,难以应对动态变化的ODD定义,导致系统在边界条件下的感知可靠性不足。

核心思路:利用VLM强大的跨模态理解能力,将其作为零样本传感器。通过精心设计的提示工程(Prompt Engineering),将ODD的文本定义转化为模型可理解的推理逻辑,从而无需重新训练即可适应新的感知需求。

技术框架:研究构建了一个包含数据采集、提示词模板设计、模型推理及失效分析的评估框架。通过对比四种主流VLM,系统性地评估了模型在不同ODD场景下的分类与检测精度。

关键创新:引入了“定义锚定思维链(Definition-anchored CoT)”与“角色分解(Persona Decomposition)”提示策略。这种方法通过强制模型先解析ODD定义,再进行视觉推理,显著提升了模型对复杂场景的理解深度。

关键设计:重点优化了提示词模板,通过将ODD规范显式注入推理过程,减少了模型幻觉。实验中对比了不同提示策略的成本与性能,为实际部署提供了性价比参考。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验通过对比四种VLM,验证了零样本ODD感知的有效性。结果显示,采用“定义锚定思维链”与“角色分解”的组合策略,在保持高准确率的同时,有效克服了传统方法在处理复杂ODD定义时的召回率下降问题。研究还提供了详细的成本-性能权衡分析,为工业界选择合适的VLM架构提供了量化依据。

🎯 应用场景

该研究主要应用于自动驾驶系统的安全审计、合规性验证及动态环境感知。通过将ODD定义转化为可执行的感知任务,该技术可帮助车企在无需大规模标注数据的情况下,快速验证车辆在不同地理、天气或交通规则下的运行能力,显著降低安全评估的成本与周期。

📄 摘要(原文)

Over the last few years, research on autonomous systems has matured to such a degree that the field is increasingly well-positioned to translate research into practical, stakeholder-driven use cases across well-defined domains. However, for a wide-scale practical adoption of autonomous systems, adherence to safety regulations is crucial. Many regulations are influenced by the Operational Design Domain (ODD), which defines the specific conditions in which an autonomous agent can function. This is especially relevant for Automated Driving Systems (ADS), as a dependable perception of ODD elements is essential for safe implementation and auditing. Vision-language models (VLMs) integrate visual recognition and language reasoning, functioning without task-specific training data, which makes them suitable for adaptable ODD perception. To assess whether VLMs can function as zero-shot "ODD sensors" that adapt to evolving definitions, we contribute (i) an empirical study of zero-shot ODD classification and detection using four VLMs on a custom dataset and Mapillary Vistas, along with failure analyses; (ii) an ablation of zero-shot optimization strategies with a cost-performance overview; and (iii) a suite of reusable prompting templates with guidance for adaptation. Our findings indicate that definition-anchored chain-of-thought prompting with persona decomposition performs best, while other methods may result in reduced recall. Overall, our results pave the way for transparent and effective ODD-based perception in safety-critical applications.