Equivariant Multi-agent Reinforcement Learning for Multimodal Vehicle-to-Infrastructure Systems

📄 arXiv: 2604.06914v1 📥 PDF

作者: Charbel Bou Chaaya, Mehdi Bennis

分类: cs.LG

发布日期: 2026-04-08


💡 一句话要点

提出一种基于等变多智能体强化学习的V2I系统资源优化方法。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 车路协同 多智能体强化学习 等变策略 自监督学习 多模态融合 图神经网络 资源优化

📋 核心要点

  1. 现有V2I系统中,RSU资源优化面临挑战,尤其是在去中心化场景下,需要考虑车辆位置的对称性和部分可观测性。
  2. 论文提出一种基于自监督学习和等变多智能体强化学习的框架,利用多模态数据和图神经网络实现高效的资源分配。
  3. 实验结果表明,该方法在感知精度和性能方面均优于传统方法,验证了其在V2I系统中的有效性和泛化能力。

📝 摘要(中文)

本文研究了一种车路协同(V2I)系统,其中分布式基站(BS)作为路侧单元(RSU),从移动车辆收集多模态(无线和视觉)数据。我们考虑一个去中心化的速率最大化问题,每个RSU依赖其局部观测来优化其资源,同时所有RSU必须协作以保证良好的网络性能。我们将此问题重新定义为一个分布式多智能体强化学习(MARL)问题,并结合了车辆位置的旋转对称性。为了利用这些对称性,我们提出了一种新颖的自监督学习框架,其中每个BS智能体对齐其多模态观测的潜在特征,以提取其局部区域中车辆的位置。在每个RSU配备这种感知数据后,我们使用带有消息传递层的图神经网络(GNN)训练一个等变策略网络,使得每个智能体在本地计算其策略,同时所有智能体通过一种信令方案协调其策略,该方案克服了部分可观测性并保证全局策略的等变性。我们在一个模拟环境中进行了数值实验,其中使用光线追踪和计算机图形来收集无线和视觉数据。结果表明,我们的自监督和多模态感知方法的泛化能力优于基线方法两倍以上,并且我们的等变MARL训练的效率优于标准方法50%以上。

🔬 方法详解

问题定义:论文旨在解决V2I系统中,多个RSU如何去中心化地优化资源分配,以最大化网络速率的问题。现有方法通常忽略了车辆位置的旋转对称性,并且难以处理RSU的部分可观测性,导致协作效率低下。

核心思路:论文的核心思路是利用车辆位置的旋转对称性,设计等变策略网络,使得智能体的策略在车辆位置发生旋转时保持一致性。同时,通过自监督学习提取多模态数据中的车辆位置信息,克服部分可观测性问题,从而实现高效的协作资源分配。

技术框架:整体框架包含三个主要模块:1) 多模态数据收集模块,利用无线和视觉数据获取车辆信息;2) 自监督学习模块,对齐多模态数据的潜在特征,提取车辆位置;3) 等变多智能体强化学习模块,使用图神经网络训练等变策略网络,并通过消息传递实现智能体间的协作。

关键创新:最重要的技术创新点在于提出了一个等变策略网络,该网络能够保证全局策略的等变性,从而更好地利用车辆位置的对称性。此外,自监督学习框架能够有效地从多模态数据中提取车辆位置信息,克服了部分可观测性问题。

关键设计:论文使用图神经网络(GNN)作为策略网络的基础结构,其中消息传递层用于实现智能体间的协作。损失函数包括强化学习的奖励函数和自监督学习的对齐损失。具体的网络结构和参数设置在论文中有详细描述,但具体数值未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在自监督学习方面,感知精度优于基线方法两倍以上。在等变多智能体强化学习训练方面,性能优于标准方法50%以上。这些结果验证了该方法在V2I系统资源优化方面的有效性和优越性。

🎯 应用场景

该研究成果可应用于智能交通系统、自动驾驶、车联网等领域。通过优化V2I系统的资源分配,可以提高网络吞吐量、降低延迟,从而改善用户体验,并为自动驾驶车辆提供更可靠的通信保障。未来,该方法有望推广到更复杂的交通场景和更广泛的物联网应用中。

📄 摘要(原文)

In this paper, we study a vehicle-to-infrastructure (V2I) system where distributed base stations (BSs) acting as road-side units (RSUs) collect multimodal (wireless and visual) data from moving vehicles. We consider a decentralized rate maximization problem, where each RSU relies on its local observations to optimize its resources, while all RSUs must collaborate to guarantee favorable network performance. We recast this problem as a distributed multi-agent reinforcement learning (MARL) problem, by incorporating rotation symmetries in terms of vehicles' locations. To exploit these symmetries, we propose a novel self-supervised learning framework where each BS agent aligns the latent features of its multimodal observation to extract the positions of the vehicles in its local region. Equipped with this sensing data at each RSU, we train an equivariant policy network using a graph neural network (GNN) with message passing layers, such that each agent computes its policy locally, while all agents coordinate their policies via a signaling scheme that overcomes partial observability and guarantees the equivariance of the global policy. We present numerical results carried out in a simulation environment, where ray-tracing and computer graphics are used to collect wireless and visual data. Results show the generalizability of our self-supervised and multimodal sensing approach, achieving more than two-fold accuracy gains over baselines, and the efficiency of our equivariant MARL training, attaining more than 50% performance gains over standard approaches.