MMCD: Multi-Modal Collaborative Decision-Making for Connected Autonomy with Knowledge Distillation

📄 arXiv: 2509.18198v1 📥 PDF

作者: Rui Liu, Zikang Wang, Peng Gao, Yu Shen, Pratap Tokekar, Ming Lin

分类: cs.AI, cs.MA, cs.RO

发布日期: 2025-09-19

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出MMCD框架,利用跨模态知识蒸馏提升互联自动驾驶在复杂环境下的决策能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 互联自动驾驶 多模态融合 协同决策 知识蒸馏 鲁棒性 教师-学生模型 跨模态学习

📋 核心要点

  1. 现有互联自动驾驶方法通常假设训练和测试时所有模态数据和互联车辆均可用,这在实际中难以保证,限制了其应用。
  2. MMCD框架通过融合自车和协同车辆的多模态观测信息,并采用跨模态知识蒸馏,提升了在部分模态缺失情况下的决策鲁棒性。
  3. 实验表明,MMCD框架在互联自动驾驶和空地协同场景中,显著提升了驾驶安全性,最高提升达20.7%,优于现有最佳方法。

📝 摘要(中文)

本文提出了一种用于互联自动驾驶的新框架MMCD(多模态协同决策)。该框架融合了自车和协同车辆的多模态观测信息,以增强在复杂条件下的决策能力。为了确保在测试期间某些数据模态不可用时的鲁棒性能,本文提出了一种基于跨模态知识蒸馏的方法,该方法采用教师-学生模型结构。教师模型使用多种数据模态进行训练,而学生模型旨在在减少模态的情况下有效运行。在地面车辆互联自动驾驶和空地车辆协同的实验中,我们的方法将驾驶安全性提高了高达20.7%,超过了现有最佳基线,能够更好地检测潜在事故并做出安全的驾驶决策。

🔬 方法详解

问题定义:论文旨在解决互联自动驾驶系统中,由于传感器故障或互联车辆缺失导致部分模态数据不可用时,系统决策性能下降的问题。现有方法通常依赖所有模态数据的完整性,无法应对实际应用中数据缺失的挑战。

核心思路:论文的核心思路是利用跨模态知识蒸馏,让学生模型学习教师模型在多模态数据下的决策能力,从而使学生模型在仅有部分模态数据时也能做出可靠的决策。通过这种方式,系统可以更好地适应各种数据可用性情况,提高鲁棒性。

技术框架:MMCD框架包含教师模型和学生模型。教师模型使用所有可用的模态数据(RGB图像和LiDAR点云)进行训练,学习全面的决策策略。学生模型则在训练时模拟数据缺失的情况,学习在仅有部分模态数据时进行决策。在测试阶段,学生模型直接用于决策,无需依赖所有模态数据。

关键创新:论文的关键创新在于将跨模态知识蒸馏应用于互联自动驾驶的协同决策问题。通过教师-学生模型的训练方式,实现了在数据模态缺失情况下的鲁棒决策。这种方法不同于传统的依赖完整数据的方案,更符合实际应用场景的需求。

关键设计:论文采用的知识蒸馏方法,通过最小化教师模型和学生模型输出之间的差异,来传递知识。具体的损失函数设计可能包括KL散度等。网络结构方面,教师模型通常采用更复杂的结构以学习更全面的知识,而学生模型则采用更轻量级的结构以提高效率。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MMCD框架在互联自动驾驶和空地协同场景中均取得了显著的性能提升。在驾驶安全性方面,MMCD框架相比现有最佳基线提升了高达20.7%。这表明MMCD框架能够更有效地检测潜在事故并做出安全的驾驶决策,验证了跨模态知识蒸馏在提升互联自动驾驶系统鲁棒性方面的有效性。

🎯 应用场景

该研究成果可应用于各种互联自动驾驶场景,例如城市道路自动驾驶、物流配送、矿区无人运输等。通过提高在恶劣天气、传感器故障等情况下的决策鲁棒性,可以显著提升自动驾驶系统的安全性和可靠性,加速自动驾驶技术的商业化落地。此外,该方法也可推广到其他多模态融合的机器人应用中。

📄 摘要(原文)

Autonomous systems have advanced significantly, but challenges persist in accident-prone environments where robust decision-making is crucial. A single vehicle's limited sensor range and obstructed views increase the likelihood of accidents. Multi-vehicle connected systems and multi-modal approaches, leveraging RGB images and LiDAR point clouds, have emerged as promising solutions. However, existing methods often assume the availability of all data modalities and connected vehicles during both training and testing, which is impractical due to potential sensor failures or missing connected vehicles. To address these challenges, we introduce a novel framework MMCD (Multi-Modal Collaborative Decision-making) for connected autonomy. Our framework fuses multi-modal observations from ego and collaborative vehicles to enhance decision-making under challenging conditions. To ensure robust performance when certain data modalities are unavailable during testing, we propose an approach based on cross-modal knowledge distillation with a teacher-student model structure. The teacher model is trained with multiple data modalities, while the student model is designed to operate effectively with reduced modalities. In experiments on $\textit{connected autonomous driving with ground vehicles}$ and $\textit{aerial-ground vehicles collaboration}$, our method improves driving safety by up to ${\it 20.7}\%$, surpassing the best-existing baseline in detecting potential accidents and making safe driving decisions. More information can be found on our website https://ruiiu.github.io/mmcd.