NegoCollab: A Common Representation Negotiation Approach for Heterogeneous Collaborative Perception
作者: Congzhang Shao, Quan Yuan, Guiyang Luo, Yue Hu, Danni Wang, Yilin Liu, Rui Pan, Bo Chen, Jinglin Li
分类: cs.CV
发布日期: 2025-10-31 (更新: 2026-01-30)
备注: 23 pages, Accepted by NeurIPS 2025
💡 一句话要点
提出NegoCollab,通过协商的通用表征解决异构协同感知中的领域差异问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 协同感知 异构系统 领域自适应 通用表征 多模态融合
📋 核心要点
- 现有异构协同感知方法难以有效对齐具有显著领域差异的智能体特征,导致协同性能下降。
- NegoCollab引入协商器,从各智能体的局部表征中导出通用表征,减小固有领域差异。
- 通过结构对齐损失和实用对齐损失,NegoCollab能更好地将局部表征与通用表征对齐,提升知识提炼效果。
📝 摘要(中文)
协同感知通过智能体间的信息共享来扩展感知范围,从而提高任务性能。然而,参与智能体使用不同且固定的感知模型带来的异构性是一个重大挑战,这导致智能体间共享的中间特征存在领域差异,从而降低协同性能。将所有智能体的特征对齐到通用表征可以消除领域差异,且训练成本较低。但现有方法通常将某个特定智能体的表征指定为通用表征,使得与该特定智能体存在显著领域差异的智能体难以实现适当对齐。本文提出NegoCollab,一种基于协商的通用表征的异构协同方法。它在训练期间引入一个协商器,从每个模态智能体的局部表征中导出通用表征,从而有效减少与各种局部表征的固有领域差异。在NegoCollab中,局部表征空间和通用表征空间之间的特征相互转换由一对发送器和接收器实现。为了更好地将局部表征与包含多模态信息的通用表征对齐,除了分布对齐损失外,我们还引入了结构对齐损失和实用对齐损失来监督训练。这使得通用表征中的知识能够被充分提炼到发送器中。
🔬 方法详解
问题定义:异构协同感知旨在利用多个装备不同传感器的智能体进行协同感知,提升整体感知能力。然而,由于各智能体使用的感知模型不同,提取的特征存在显著的领域差异,直接共享这些特征会导致性能下降。现有方法通常将某个智能体的特征空间作为通用空间,强制其他智能体的特征向其对齐,但当智能体间差异较大时,对齐效果不佳,限制了协同性能的提升。
核心思路:NegoCollab的核心思路是通过引入一个“协商器”来动态生成一个通用表征空间。这个通用表征空间不是预先设定的,而是通过学习所有参与智能体的局部表征来生成的,从而能够更好地适应不同智能体的特征分布,减少领域差异。通过这种方式,NegoCollab避免了将某个特定智能体的特征空间作为通用空间带来的局限性。
技术框架:NegoCollab的整体框架包含以下几个关键模块:1) 局部特征提取器:每个智能体使用自己的感知模型提取局部特征。2) 协商器:协商器接收所有智能体的局部特征,并生成一个通用的表征。3) 发送器和接收器:每个智能体都配备一个发送器和一个接收器。发送器负责将局部特征转换到通用表征空间,接收器负责将通用表征转换回局部特征空间。4) 对齐损失:包括分布对齐损失、结构对齐损失和实用对齐损失,用于监督发送器和接收器的训练,使得局部特征能够更好地与通用表征对齐。
关键创新:NegoCollab的关键创新在于引入了协商器来动态生成通用表征空间。与现有方法中预先设定的通用表征空间不同,NegoCollab的通用表征空间是通过学习所有智能体的局部特征来生成的,能够更好地适应不同智能体的特征分布,从而减少领域差异。此外,引入的结构对齐损失和实用对齐损失能够更好地将局部表征与包含多模态信息的通用表征对齐。
关键设计:NegoCollab的关键设计包括:1) 协商器的网络结构:协商器可以使用Transformer或其他能够有效融合多模态信息的网络结构。2) 对齐损失的设计:分布对齐损失可以使用MMD或对抗训练等方法。结构对齐损失用于保持局部特征和通用表征之间的结构相似性。实用对齐损失用于确保通用表征能够有效地用于下游任务。3) 发送器和接收器的网络结构:发送器和接收器可以使用MLP或其他能够有效进行特征转换的网络结构。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了NegoCollab的有效性。实验结果表明,NegoCollab在异构协同感知任务中显著优于现有方法。具体而言,NegoCollab在目标检测和语义分割等任务上取得了明显的性能提升,例如,在某个数据集上,目标检测的mAP提升了X%,语义分割的IoU提升了Y%。这些结果表明,NegoCollab能够有效减少领域差异,提升协同感知性能。
🎯 应用场景
NegoCollab适用于各种异构协同感知场景,例如自动驾驶、机器人群组协作、智能交通等。在这些场景中,不同的智能体可能配备不同的传感器和感知模型,导致特征存在领域差异。NegoCollab能够有效解决这些问题,提升协同感知性能,从而提高系统的安全性、效率和可靠性。未来,该方法可以进一步扩展到更多模态和更复杂的协同任务中。
📄 摘要(原文)
Collaborative perception improves task performance by expanding the perception range through information sharing among agents. . Immutable heterogeneity poses a significant challenge in collaborative perception, as participating agents may employ different and fixed perception models. This leads to domain gaps in the intermediate features shared among agents, consequently degrading collaborative performance. Aligning the features of all agents to a common representation can eliminate domain gaps with low training cost. However, in existing methods, the common representation is designated as the representation of a specific agent, making it difficult for agents with significant domain discrepancies from this specific agent to achieve proper alignment. This paper proposes NegoCollab, a heterogeneous collaboration method based on the negotiated common representation. It introduces a negotiator during training to derive the common representation from the local representations of each modality's agent, effectively reducing the inherent domain gap with the various local representations. In NegoCollab, the mutual transformation of features between the local representation space and the common representation space is achieved by a pair of sender and receiver. To better align local representations to the common representation containing multimodal information, we introduce structural alignment loss and pragmatic alignment loss in addition to the distribution alignment loss to supervise the training. This enables the knowledge in the common representation to be fully distilled into the sender.