Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration

📄 arXiv: 2605.00370v1 📥 PDF

作者: Chunlei Meng, Pengbin Feng, Rong Fu, Hoi Leong Lee, Xiaojing Du, Zhaolu Kang, Zeyu Zhang, Weilin Zhou, Chun Ouyang, Zhongxue Gan

分类: cs.LG, cs.CY, cs.MM

发布日期: 2026-05-01

备注: This study has been Accepted by ICML 2026. The current version is a manuscript, please refer to the official version released at ICML 2026 for the final published version


💡 一句话要点

提出群体认知学习(GCL),通过可控的两阶段Agent协作,提升多模态融合性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 群体认知 Agent协作 选择性交互 共识形成

📋 核心要点

  1. 传统多模态融合易受模态主导和虚假耦合影响,导致模型性能受限。
  2. GCL通过两阶段Agent协作,实现模态间的选择性交互和共识形成,缓解上述问题。
  3. 实验表明,GCL在多个数据集上取得了SOTA结果,验证了其有效性。

📝 摘要(中文)

中心化的多模态学习通常将语言、声音和视觉信号压缩成单一的融合表示来进行预测。这种方法虽然有效,但也存在两个局限性:模态主导,即优化偏向于阻力最小的路径,忽略了较弱但信息丰富的模态;以及虚假模态耦合,即模型过度拟合偶然的跨模态相关性。为了解决这些问题,我们提出了群体认知学习(GCL),这是一种可控的协作范式,在模态特定的编码之后应用两阶段协议。在第一阶段(选择性交互)中,路由Agent提出定向交互路径,审计Agent分配样本级别的门控,以强调产生积极边际预测增益的交换,同时抑制冗余耦合。在第二阶段(共识形成)中,公共因子Agent维护显式的共享因子,聚合Agent通过贡献感知的加权产生最终预测,同时保持每个模态表示作为专业化通道。在CMU-MOSI、CMU-MOSEI和MIntRec上的大量实验表明,GCL减轻了主导和耦合问题,在回归和分类基准测试中都建立了最先进的结果。分析实验进一步证明了该设计的有效性。

🔬 方法详解

问题定义:多模态学习旨在融合来自不同模态的信息以进行预测,但现有方法容易受到模态主导和虚假模态耦合的影响。模态主导指的是模型倾向于依赖于最容易学习的模态,而忽略其他信息量较小的模态。虚假模态耦合指的是模型学习到数据集中偶然存在的跨模态相关性,导致泛化能力下降。这些问题限制了多模态学习的性能和鲁棒性。

核心思路:GCL的核心思路是通过模拟群体认知过程,让不同的模态像团队成员一样协作,共同完成任务。通过引入路由Agent和审计Agent来控制模态之间的信息交互,避免无效或有害的耦合。同时,通过公共因子Agent和聚合Agent来促进模态之间的共识形成,从而提高预测的准确性和可靠性。

技术框架:GCL包含两个主要阶段:选择性交互和共识形成。在选择性交互阶段,路由Agent根据模态之间的相关性提出交互路径,审计Agent评估这些交互路径的价值,并为每个样本分配门控,以控制信息的流动。在共识形成阶段,公共因子Agent维护一个共享的表示,聚合Agent根据每个模态的贡献来加权融合这些表示,最终产生预测结果。

关键创新:GCL的关键创新在于引入了可控的两阶段Agent协作机制。路由Agent和审计Agent能够动态地调整模态之间的交互方式,从而缓解模态主导和虚假耦合问题。公共因子Agent能够显式地建模模态之间的共享信息,从而促进共识形成。

关键设计:路由Agent和审计Agent可以使用不同的神经网络结构来实现,例如Transformer或GNN。损失函数可以包括预测损失、路由损失和审计损失,以鼓励Agent学习到有效的交互策略。公共因子Agent可以使用自编码器或变分自编码器来学习共享表示。聚合Agent可以使用注意力机制或门控机制来加权融合不同的模态表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GCL在CMU-MOSI、CMU-MOSEI和MIntRec三个数据集上进行了广泛的实验,结果表明GCL在回归和分类任务上都取得了SOTA结果。例如,在CMU-MOSEI数据集上,GCL的分类准确率比现有最佳方法提高了超过2%。这些结果证明了GCL能够有效地缓解模态主导和虚假耦合问题,并提高多模态学习的性能。

🎯 应用场景

GCL可应用于情感分析、视频理解、语音识别等多种多模态学习任务。例如,在情感分析中,GCL可以更好地融合文本、语音和视觉信息,提高情感识别的准确率。在视频理解中,GCL可以更好地利用视频中的音频和视觉信息,提高视频内容理解的准确率。该方法具有广泛的应用前景,并有望推动多模态人工智能的发展。

📄 摘要(原文)

Centralized multimodal learning commonly compresses language, acoustic, and visual signals into a single fused representation for prediction. While effective, this paradigm suffers from two limitations: modality dominance, where optimization gravitates towards the path of least resistance, ignoring weaker but informative modalities, and spurious modality coupling, where models overfit to incidental cross-modal correlations. To address these, we propose Group Cognition Learning (GCL), a governed collaboration paradigm that applies a two-stage protocol after modality-specific encoding. In Stage 1 (Selective Interaction), a Routing Agent proposes directed interaction routes, and an Auditing Agent assigns sample-wise gates to emphasize exchanges that yield positive marginal predictive gain while suppressing redundant coupling. In Stage 2 (Consensus Formation), a Public-Factor Agent maintains an explicit shared factor, and an Aggregation Agent produces the final prediction through contribution-aware weighting while keeping each modality representation as a specialization channel. Extensive experiments on CMU-MOSI, CMU-MOSEI, and MIntRec demonstrate that GCL mitigates dominance and coupling, establishing state-of-the-art results across both regression and classification benchmarks. Analysis experiments further demonstrate the effectiveness of the design.