Robust Fusion of Object-Level V2X for Learned 3D Object Detection

📄 arXiv: 2605.00595v1 📥 PDF

作者: Lukas Ostendorf, Lennart Reiher, Onn Haran, Lutz Eckstein

分类: cs.CV, cs.RO

发布日期: 2026-05-01

备注: Accepted at IEEE VTC 2026-Spring, 7 pages


💡 一句话要点

提出噪声感知训练策略,提升V2X融合3D目标检测在噪声环境下的鲁棒性

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: V2X融合 3D目标检测 噪声感知训练 鲁棒性 自动驾驶

📋 核心要点

  1. 车载传感器在复杂环境受限,V2X通信提供补充信息,但如何有效融合并保证鲁棒性是挑战。
  2. 提出噪声感知训练策略,模拟真实V2X噪声,并结合置信度编码,提升模型对噪声的适应性。
  3. 实验表明,该方法在噪声和低V2X渗透率下仍能保持性能,克服了传统方法过度依赖V2X的问题。

📝 摘要(中文)

自动驾驶感知主要依赖车载传感器,如摄像头和雷达,但其视线和视野受限。车辆间通信(V2X)通过共享车辆状态作为目标级信息来补充车载感知。本文研究了如何将V2X信息集成到3D目标检测中,以及系统在真实V2X缺陷下的鲁棒性。使用nuScenes数据集,模拟目标级协同感知消息,注入噪声和目标丢失,模拟延迟、定位误差和低V2X渗透率等真实条件。将这些消息转换为鸟瞰图(BEV)输入,并将其融合到BEVFusion风格的检测器中。结果表明,虽然目标级协同信息可以显著提高检测性能(NDS达到0.80),但理想数据训练的模型容易变得脆弱且过度依赖V2X。相反,我们提出的噪声感知训练策略,结合显式置信度编码,增强了鲁棒性,即使在严重噪声和降低的V2X渗透率下也能保持性能。

🔬 方法详解

问题定义:现有3D目标检测方法依赖车载传感器,易受遮挡和恶劣天气影响。V2X通信提供补充信息,但实际V2X数据存在噪声(如延迟、定位误差)和数据缺失(低渗透率),导致模型在真实场景下性能下降。现有方法在理想V2X数据上训练,对噪声敏感,泛化能力差。

核心思路:核心在于提升模型对V2X数据噪声的鲁棒性。通过在训练阶段模拟真实V2X噪声,使模型学习适应噪声环境。同时,引入置信度编码,让模型能够区分可靠和不可靠的V2X信息,降低对噪声数据的依赖。

技术框架:整体框架基于BEVFusion,将车载传感器数据和V2X数据融合进行3D目标检测。V2X数据首先被转换为BEV表示,然后与车载传感器的BEV特征进行融合。关键在于训练阶段,引入噪声模拟模块,对V2X数据添加各种噪声。检测器输出目标框和置信度,置信度用于后续的融合和决策。

关键创新:关键创新在于噪声感知训练策略和置信度编码。噪声感知训练通过模拟真实V2X噪声,使模型学习到噪声的分布,从而提高对噪声的鲁棒性。置信度编码让模型能够评估V2X信息的可靠性,降低对不可靠信息的依赖。与现有方法相比,该方法更关注真实V2X环境下的鲁棒性。

关键设计:噪声模拟模块包括目标丢失(模拟低渗透率)、定位误差(模拟定位不准)和属性噪声(模拟信息错误)。置信度编码采用额外的网络分支预测每个V2X目标的置信度,该置信度用于加权融合V2X特征。损失函数包括目标检测损失和置信度预测损失,共同优化模型性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在理想V2X条件下,该方法可以达到0.80的NDS。在模拟真实V2X噪声和低渗透率的条件下,相比于在理想数据上训练的模型,该方法能够显著提升鲁棒性,保持较高的检测性能。噪声感知训练策略和置信度编码的引入,有效降低了模型对V2X数据的过度依赖,提高了泛化能力。

🎯 应用场景

该研究成果可应用于自动驾驶、智能交通等领域,提升车辆在复杂环境下的感知能力。通过融合V2X信息,车辆可以获得更全面的环境信息,提高安全性。该方法尤其适用于V2X渗透率较低、数据质量不高的场景,具有重要的实际应用价值,并为未来更高级别的自动驾驶提供技术支撑。

📄 摘要(原文)

Perception for automated driving is largely based on onboard environmental sensors, such as cameras and radar, which are cost-effective but limited by line-of-sight and field-of-view constraints. These inherent limitations may cause onboard perception to fail under occlusions or poor visibility conditions. In parallel, cooperative awareness via vehicle-to-everything (V2X) communication is becoming increasingly available, enabling vehicles and infrastructure to share their own state as object-level information that complements onboard perception. In this work, we study how such V2X information can be integrated into 3D object detection and how robust the resulting system is to realistic V2X imperfections. Using the nuScenes dataset, we emulate object-level cooperative awareness messages from ground truth, injecting controlled noise and object dropout to mimic real-world conditions such as latency, localization errors, and low V2X penetration rates. We convert these messages into a dedicated bird's-eye view (BEV) input and fuse them into a BEVFusion-style detector. Our results demonstrate that while object-level cooperative information can substantially improve detection performance, achieving an NDS of 0.80 under favorable conditions, models trained on idealized data become fragile and over-reliant on V2X. Conversely, our proposed noise-aware training strategy, coupled with explicit confidence encoding, enhances robustness, maintaining performance gains even under severe noise and reduced V2X penetration.