End-to-End 3D Spatiotemporal Perception with Multimodal Fusion and V2X Collaboration

作者: Zhenwei Yang, Yibo Ai, Weidong Zhang

分类: cs.CV

发布日期: 2025-12-26

备注: 19 pages, 19 figures

💡 一句话要点

提出XET-V2X，用于V2X场景下多模态融合的端到端3D时空感知。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: V2X 协同感知 多模态融合 3D目标检测 3D目标跟踪

📋 核心要点

现有V2X感知方法难以有效融合多视角多模态数据，尤其是在遮挡和通信延迟等复杂场景下。
XET-V2X通过双层空间交叉注意力模块，有效对齐异构视角和模态，实现多模态特征的有效融合。
在V2X-Seq-SPD等数据集上的实验表明，XET-V2X在检测和跟踪性能上均取得了显著提升，鲁棒性更强。

📝 摘要（中文）

本文提出了一种名为XET-V2X的多模态融合端到端跟踪框架，用于V2X协作，旨在统一共享时空表示中的多视角多模态感知。该框架针对V2X场景中遮挡、视角限制和通信延迟等问题，对可靠的3D时空理解至关重要。为了有效地对齐异构视角和模态，XET-V2X引入了一个基于多尺度可变形注意力的双层空间交叉注意力模块。首先聚合多视角图像特征以增强语义一致性，然后通过更新后的空间查询引导点云融合，从而实现有效的跨模态交互，同时降低计算开销。在真实世界的V2X-Seq-SPD数据集以及模拟的V2X-Sim-V2V和V2X-Sim-V2I基准上的实验表明，在不同的通信延迟下，检测和跟踪性能均得到持续提升。定量结果和定性可视化均表明，XET-V2X在复杂的交通场景中实现了鲁棒且时间上稳定的感知。

🔬 方法详解

问题定义：在自动驾驶的V2X场景中，由于车辆视角受限、遮挡以及通信延迟等因素，如何实现准确、鲁棒的3D时空感知是一个关键问题。现有的方法通常难以有效地融合来自不同视角和模态（如图像和点云）的数据，导致感知性能下降。

核心思路：XET-V2X的核心思路是构建一个统一的、共享的时空表示，将来自不同视角和模态的数据融合到这个统一的空间中。通过这种方式，可以有效地利用多源信息，提高感知的准确性和鲁棒性。框架设计重点在于如何有效地对齐和融合异构的数据，并降低计算复杂度。

技术框架：XET-V2X是一个端到端的跟踪框架，主要包含以下几个模块：1) 多视角图像特征提取：从不同车辆的图像中提取特征。2) 双层空间交叉注意力模块：该模块包含两个层级，第一层聚合多视角图像特征，增强语义一致性；第二层利用更新后的空间查询引导点云融合，实现跨模态交互。3) 3D目标检测与跟踪：基于融合后的特征进行3D目标检测和跟踪。整个框架以端到端的方式进行训练，优化感知性能。

关键创新：XET-V2X的关键创新在于其双层空间交叉注意力模块。该模块能够有效地对齐和融合来自不同视角和模态的数据，同时降低计算开销。与传统的注意力机制相比，该模块采用了多尺度可变形注意力，能够更好地适应不同尺度和形状的目标。

关键设计：双层空间交叉注意力模块是关键。第一层使用多尺度可变形注意力来聚合多视角图像特征，生成空间查询。第二层使用这些查询来引导点云特征的融合。损失函数包括检测损失和跟踪损失，用于优化检测和跟踪性能。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

在V2X-Seq-SPD、V2X-Sim-V2V和V2X-Sim-V2I等数据集上的实验结果表明，XET-V2X在检测和跟踪性能上均取得了显著提升。例如，在V2X-Seq-SPD数据集上，XET-V2X的检测精度提高了X%，跟踪精度提高了Y%（具体数值未知）。此外，实验还证明了XET-V2X在不同通信延迟下的鲁棒性。

🎯 应用场景

XET-V2X技术可应用于自动驾驶、智能交通等领域，尤其是在需要多车协同感知的场景中，如十字路口、高速公路等。该技术能够提高感知系统的鲁棒性和准确性，减少交通事故，提升交通效率。未来，该技术有望应用于更广泛的机器人和智能系统领域。

📄 摘要（原文）

Multi-view cooperative perception and multimodal fusion are essential for reliable 3D spatiotemporal understanding in autonomous driving, especially under occlusions, limited viewpoints, and communication delays in V2X scenarios. This paper proposes XET-V2X, a multi-modal fused end-to-end tracking framework for v2x collaboration that unifies multi-view multimodal sensing within a shared spatiotemporal representation. To efficiently align heterogeneous viewpoints and modalities, XET-V2X introduces a dual-layer spatial cross-attention module based on multi-scale deformable attention. Multi-view image features are first aggregated to enhance semantic consistency, followed by point cloud fusion guided by the updated spatial queries, enabling effective cross-modal interaction while reducing computational overhead. Experiments on the real-world V2X-Seq-SPD dataset and the simulated V2X-Sim-V2V and V2X-Sim-V2I benchmarks demonstrate consistent improvements in detection and tracking performance under varying communication delays. Both quantitative results and qualitative visualizations indicate that XET-V2X achieves robust and temporally stable perception in complex traffic scenarios.

End-to-End 3D Spatiotemporal Perception with Multimodal Fusion and V2X Collaboration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理