Bridging Structure and Language: Graph-Based Visual Reasoning for Autonomous Road Understanding

📄 arXiv: 2605.20942v1 📥 PDF

作者: Lena Wild, Katie Z Luo, Marco Pavone

分类: cs.CV

发布日期: 2026-05-20


💡 一句话要点

提出基于图结构的视觉推理框架CRS,提升自动驾驶场景下的道路理解能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 道路理解 视觉语言模型 图神经网络 结构化推理

📋 核心要点

  1. 现有VLM模型缺乏几何和关系基础,难以进行精确的道路推理,而传统模块化系统语义僵化,无法灵活应对复杂场景。
  2. 论文提出组合道路基底(CRS),将几何道路结构和开放词汇语义融合到统一的图表示中,实现结构化道路理解。
  3. 实验表明,使用少量CRS增强数据训练的小型模型,在组合推理任务中显著优于大型VLM模型,表明结构化监督的重要性。

📝 摘要(中文)

结构化的道路理解,包括车道几何、拓扑和交通元素关系,是安全自动驾驶的基础。视觉-语言模型(VLMs)虽然具有良好的语义灵活性,但缺乏精确道路推理所需的几何和关系基础。传统的模块化系统,如高清地图和拓扑道路图,虽然提供结构精度,但语义僵化。为了弥合这一差距,我们引入了组合道路基底(CRS),这是一个基于图的框架,它使几何道路结构和开放词汇语义在单一表示中联合执行。CRS通过递归图查询自动生成组合复杂且语言多样的问答对,并采用“免费 grounding”机制,确保逻辑可追溯到特定地图元素,以及程序化提取的思维链监督轨迹。我们证明,包括大型闭源模型在内的最先进的VLM在结构化道路推理方面表现不佳,但使用少量(20到80个)CRS增强场景训练一个小型20亿或40亿参数的模型,可以在不同深度的组合推理任务中获得稳定提升。通过可验证的推理轨迹分析模型行为,揭示了故障模式的系统性转变:基线模型在关系场景理解方面失败,而CRS训练的模型将失败减少到属性识别,表明道路理解的主要瓶颈不是模型规模,而是缺乏结构化监督。

🔬 方法详解

问题定义:现有视觉-语言模型(VLMs)在自动驾驶场景下的道路理解任务中,缺乏对道路几何结构和元素间关系的精确建模能力,导致推理性能不佳。传统方法依赖于高清地图等结构化数据,但语义信息有限,难以适应复杂多变的交通环境。因此,如何将结构化信息与丰富的语义信息有效结合,提升道路理解能力,是本文要解决的关键问题。

核心思路:论文的核心思路是将道路场景表示为一个图结构,其中节点表示道路元素(如车道、交通标志),边表示元素之间的几何和拓扑关系。同时,利用视觉-语言模型提取图像中的语义信息,并将语义信息与图结构进行融合,从而实现对道路场景的结构化理解。这种方法既保留了结构化数据的精确性,又引入了语义信息的灵活性。

技术框架:该方法主要包含以下几个模块:1) 图构建模块:根据道路场景的几何信息和拓扑关系,构建道路图结构。2) 语义提取模块:利用视觉-语言模型提取图像中的语义信息,例如识别车道线类型、交通标志内容等。3) 图融合模块:将提取的语义信息融合到道路图结构中,例如将车道线类型作为节点属性,将交通规则作为边属性。4) 推理模块:基于融合后的图结构,进行道路理解和推理,例如回答关于道路拓扑结构、交通规则等问题。

关键创新:该论文的关键创新在于提出了组合道路基底(CRS),将道路场景表示为一个图结构,并利用视觉-语言模型提取语义信息,然后将语义信息融合到图结构中。这种方法有效地结合了结构化数据和语义信息,提升了道路理解能力。此外,论文还提出了“免费 grounding”机制,确保逻辑可追溯性,并利用程序化提取的思维链进行监督。

关键设计:论文使用递归图查询自动生成组合复杂且语言多样的问答对,用于训练模型。损失函数方面,使用了标准的交叉熵损失函数,用于优化模型的分类和推理能力。在模型结构方面,使用了Transformer架构,并针对图结构进行了优化,例如引入了图注意力机制,用于学习节点之间的关系。

📊 实验亮点

实验结果表明,使用少量(20到80个)CRS增强场景训练的小型20亿或40亿参数模型,在不同深度的组合推理任务中获得了显著提升。与大型闭源VLM模型相比,CRS训练的模型在道路理解任务中表现更好,并且通过可验证的推理轨迹分析,发现CRS训练的模型将错误从关系场景理解减少到属性识别,表明结构化监督的重要性。

🎯 应用场景

该研究成果可应用于自动驾驶系统,提升车辆对道路环境的理解能力,从而提高行驶安全性。此外,该方法还可以应用于智能交通管理系统,例如用于交通流量预测、交通事件检测等。未来,该研究可以扩展到更复杂的场景,例如城市道路、高速公路等,并与其他传感器数据(如激光雷达、毫米波雷达)进行融合,进一步提升道路理解的准确性和鲁棒性。

📄 摘要(原文)

Structured road understanding of lane geometry, topology, and traffic element relationships is foundational to safe autonomous driving. While vision-language models (VLMs) offer promising semantic flexibility, they lack the geometric and relational grounding required for precise road reasoning. Conversely, traditional modular systems, e.g., HD maps and topological road graphs, provide structural precision but remain semantically rigid. To bridge this gap, we introduce the Combined Road Substrate (CRS), a graph-grounded framework that makes geometric road structure and open-vocabulary semantics jointly executable in a single representation. CRS enables the automatic generation of compositionally complex and linguistically varied question-answer pairs via recursive graph queries, augmented with a "grounding for free" mechanism that ensures logical traceability to specific map elements, and procedurally extracted chain-of-thought supervision traces. We demonstrate that state-of-the-art VLMs - including large, closed-source models - struggle significantly with structured road reasoning, yet training a small 2- or 4-billion-parameter model with as few as 20 to 80 CRS-enriched scenes yields stable gains in compositional reasoning tasks of varying depth. Analysis of model behavior via verifiable reasoning traces reveals a systematic shift in failure modes: whereas baseline models fail at relational scene understanding, CRS-trained models reduce failures to attribute recognition, suggesting that the primary bottleneck in road understanding is not model scale, but the absence of structured supervision.