Information Coordination as a Bridge: A Neuro-Symbolic Architecture for Reliable Autonomous Driving Scene Understanding
作者: Shuo Liu, Lei Shi, Haowen Liu, Jing Xu, Yufei Gao, Yucheng Shi
分类: cs.CV
发布日期: 2026-05-06
💡 一句话要点
InfoCoordiBridge:面向可靠自动驾驶场景理解的神经符号架构
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 自动驾驶 场景理解 神经符号架构 多传感器融合 信息协调
📋 核心要点
- 现有自动驾驶系统依赖LLM进行推理,但直接处理冗余或冲突的感知输出易产生幻觉和不安全结论。
- InfoCoordiBridge通过在感知和推理间引入协调桥梁,将多传感器信息融合为一致的场景摘要,避免信息冲突。
- 实验表明,InfoCoordiBridge在保持检测精度的同时,显著提升了融合一致性,并减少了幻觉实体的产生。
📝 摘要(中文)
可靠的自动驾驶需要对场景的理解在异构传感器之间保持语义一致性,并且在推理阶段可验证。然而,许多最近由LLM驱动的驾驶系统将语言模型作为后处理器,并强制它对冗余或冲突的感知输出进行推理,这会放大幻觉实体和不安全的结论。本文提出了InfoCoordiBridge,一种以BEV为中心的神经符号架构,它在感知和语言推理之间插入了一个显式的协调桥梁。InfoCoordiBridge包括(i)一个统一的多智能体感知层,输出类型化的结构化事实以及以模态为中心的概要,(ii)一个ICA模块,将多源输出对齐并融合到单个SceneSummary中,以及(iii)一个SSRE模块,执行基于SceneSummary的推理和验证。在nuScenes和Waymo上的实验表明,ICA在保持有竞争力的3D检测精度的同时,显著提高了融合一致性,将冗余度降低到1%以下,并实现了约98%的属性一致性。在NuScenes-QA和模板对齐的Waymo-QA基准测试中,SSRE提高了事实基础,并减少了与代表性的VLM和agentic基线相比的幻觉实体提及。总的来说,通过在提示之前将多传感器输出协调成一个单一的、具有冲突意识的SceneSummary,InfoCoordiBridge可以防止冗余和跨模态不一致的感知证据传播到高层推理中。
🔬 方法详解
问题定义:现有基于LLM的自动驾驶系统,通常将语言模型作为后处理模块,直接对来自不同传感器的冗余或冲突的感知结果进行推理。这种方式容易放大感知结果中的错误(幻觉),导致不安全的驾驶决策。因此,如何有效地融合多传感器信息,减少冗余和冲突,是亟待解决的问题。
核心思路:InfoCoordiBridge的核心思路是在感知和推理之间建立一个显式的协调桥梁,将来自不同传感器的信息融合为一个统一的、具有冲突意识的场景摘要(SceneSummary)。通过在推理之前消除冗余和冲突,可以提高推理的可靠性和安全性。
技术框架:InfoCoordiBridge包含三个主要模块:(1) 统一的多智能体感知层:负责从不同传感器获取数据,并输出类型化的结构化事实和模态相关的概要信息。(2) 信息协调对齐(ICA)模块:负责将多源输出对齐并融合到单个SceneSummary中,解决信息冗余和冲突问题。(3) 场景摘要推理与验证(SSRE)模块:负责基于SceneSummary进行推理和验证,减少幻觉实体的产生。
关键创新:InfoCoordiBridge的关键创新在于引入了显式的协调桥梁,将感知和推理解耦。通过ICA模块,将多传感器信息融合为一个统一的SceneSummary,避免了冗余和冲突信息直接传递到推理模块。SSRE模块则利用SceneSummary进行推理和验证,提高了推理的可靠性和安全性。
关键设计:ICA模块的设计是关键。具体实现细节未知,但根据描述,其目标是减少冗余,提高属性一致性,并生成包含冲突信息的SceneSummary。SSRE模块的设计也至关重要,它需要能够有效地利用SceneSummary进行推理和验证,并减少幻觉实体的产生。具体实现细节未知。
📊 实验亮点
实验结果表明,InfoCoordiBridge在nuScenes和Waymo数据集上取得了显著的性能提升。ICA模块在保持有竞争力的3D检测精度的同时,将融合一致性显著提高,冗余度降低到1%以下,属性一致性达到约98%。SSRE模块在NuScenes-QA和Waymo-QA基准测试中,提高了事实基础,并减少了幻觉实体提及,优于现有的VLM和agentic基线。
🎯 应用场景
InfoCoordiBridge架构可应用于各种需要多传感器融合和可靠推理的自动驾驶场景,例如城市道路自动驾驶、高速公路自动驾驶等。该研究有助于提高自动驾驶系统的安全性和可靠性,减少事故发生率,并为未来更高级别的自动驾驶技术奠定基础。
📄 摘要(原文)
Reliable autonomous driving requires scene understanding that is semantically consistent across heterogeneous sensors and verifiable at the reasoning stage. However, many recent LLM-driven driving systems attach the language model as a post-processor and force it to reason over redundant or conflicting perception outputs, which can amplify hallucinated entities and unsafe conclusions. This paper proposes InfoCoordiBridge, a BEV-centric neuro-symbolic architecture that inserts an explicit coordination bridge between perception and language reasoning. InfoCoordiBridge comprises (i) a unified multi-agent perception layer that outputs typed structured facts together with modality-focused synopses, (ii) an ICA module that aligns and fuses multi-source outputs into a single SceneSummary, and (iii) an SSRE module that performs SceneSummary-grounded reasoning with verification. Experiments on nuScenes and Waymo show that ICA preserves competitive 3D detection accuracy while substantially improving fusion consistency, reducing redundancy to below 1% and achieving about 98% attribute agreement. On NuScenes-QA and a template-aligned Waymo-QA benchmark, SSRE improves factual grounding and reduces hallucinated entity mentions compared with representative VLM and agentic baselines. Overall, by coordinating multi-sensor outputs into a single conflict-aware SceneSummary before prompting, InfoCoordiBridge prevents redundant and cross-modally inconsistent perception evidence from propagating into high-level reasoning.