Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration

作者: Chunlei Meng, Pengbin Feng, Rong Fu, Hoi Leong Lee, Xiaojing Du, Zhaolu Kang, Zeyu Zhang, Weilin Zhou, Chun Ouyang, Zhongxue Gan

分类: cs.LG, cs.CY, cs.MM

发布日期: 2026-05-01

备注: This study has been Accepted by ICML 2026. The current version is a manuscript, please refer to the official version released at ICML 2026 for the final published version

💡 一句话要点

提出群体认知学习(GCL)，通过可控的两阶段Agent协作，提升多模态融合性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 群体认知 Agent协作 选择性交互 共识形成

📋 核心要点

传统多模态融合易受模态主导和虚假耦合影响，导致模型性能受限。
GCL通过两阶段Agent协作，实现模态间的选择性交互和共识形成，缓解上述问题。
实验表明，GCL在多个数据集上取得了SOTA结果，验证了其有效性。

📝 摘要（中文）

中心化的多模态学习通常将语言、声音和视觉信号压缩成单一的融合表示来进行预测。这种方法虽然有效，但也存在两个局限性：模态主导，即优化偏向于阻力最小的路径，忽略了较弱但信息丰富的模态；以及虚假模态耦合，即模型过度拟合偶然的跨模态相关性。为了解决这些问题，我们提出了群体认知学习（GCL），这是一种可控的协作范式，在模态特定的编码之后应用两阶段协议。在第一阶段（选择性交互）中，路由Agent提出定向交互路径，审计Agent分配样本级别的门控，以强调产生积极边际预测增益的交换，同时抑制冗余耦合。在第二阶段（共识形成）中，公共因子Agent维护显式的共享因子，聚合Agent通过贡献感知的加权产生最终预测，同时保持每个模态表示作为专业化通道。在CMU-MOSI、CMU-MOSEI和MIntRec上的大量实验表明，GCL减轻了主导和耦合问题，在回归和分类基准测试中都建立了最先进的结果。分析实验进一步证明了该设计的有效性。

🔬 方法详解

问题定义：多模态学习旨在融合来自不同模态的信息以进行预测，但现有方法容易受到模态主导和虚假模态耦合的影响。模态主导指的是模型倾向于依赖于最容易学习的模态，而忽略其他信息量较小的模态。虚假模态耦合指的是模型学习到数据集中偶然存在的跨模态相关性，导致泛化能力下降。这些问题限制了多模态学习的性能和鲁棒性。

核心思路：GCL的核心思路是通过模拟群体认知过程，让不同的模态像团队成员一样协作，共同完成任务。通过引入路由Agent和审计Agent来控制模态之间的信息交互，避免无效或有害的耦合。同时，通过公共因子Agent和聚合Agent来促进模态之间的共识形成，从而提高预测的准确性和可靠性。

技术框架：GCL包含两个主要阶段：选择性交互和共识形成。在选择性交互阶段，路由Agent根据模态之间的相关性提出交互路径，审计Agent评估这些交互路径的价值，并为每个样本分配门控，以控制信息的流动。在共识形成阶段，公共因子Agent维护一个共享的表示，聚合Agent根据每个模态的贡献来加权融合这些表示，最终产生预测结果。

关键创新：GCL的关键创新在于引入了可控的两阶段Agent协作机制。路由Agent和审计Agent能够动态地调整模态之间的交互方式，从而缓解模态主导和虚假耦合问题。公共因子Agent能够显式地建模模态之间的共享信息，从而促进共识形成。

关键设计：路由Agent和审计Agent可以使用不同的神经网络结构来实现，例如Transformer或GNN。损失函数可以包括预测损失、路由损失和审计损失，以鼓励Agent学习到有效的交互策略。公共因子Agent可以使用自编码器或变分自编码器来学习共享表示。聚合Agent可以使用注意力机制或门控机制来加权融合不同的模态表示。

🖼️ 关键图片

📊 实验亮点

GCL在CMU-MOSI、CMU-MOSEI和MIntRec三个数据集上进行了广泛的实验，结果表明GCL在回归和分类任务上都取得了SOTA结果。例如，在CMU-MOSEI数据集上，GCL的分类准确率比现有最佳方法提高了超过2%。这些结果证明了GCL能够有效地缓解模态主导和虚假耦合问题，并提高多模态学习的性能。

🎯 应用场景

GCL可应用于情感分析、视频理解、语音识别等多种多模态学习任务。例如，在情感分析中，GCL可以更好地融合文本、语音和视觉信息，提高情感识别的准确率。在视频理解中，GCL可以更好地利用视频中的音频和视觉信息，提高视频内容理解的准确率。该方法具有广泛的应用前景，并有望推动多模态人工智能的发展。

📄 摘要（原文）

Centralized multimodal learning commonly compresses language, acoustic, and visual signals into a single fused representation for prediction. While effective, this paradigm suffers from two limitations: modality dominance, where optimization gravitates towards the path of least resistance, ignoring weaker but informative modalities, and spurious modality coupling, where models overfit to incidental cross-modal correlations. To address these, we propose Group Cognition Learning (GCL), a governed collaboration paradigm that applies a two-stage protocol after modality-specific encoding. In Stage 1 (Selective Interaction), a Routing Agent proposes directed interaction routes, and an Auditing Agent assigns sample-wise gates to emphasize exchanges that yield positive marginal predictive gain while suppressing redundant coupling. In Stage 2 (Consensus Formation), a Public-Factor Agent maintains an explicit shared factor, and an Aggregation Agent produces the final prediction through contribution-aware weighting while keeping each modality representation as a specialization channel. Extensive experiments on CMU-MOSI, CMU-MOSEI, and MIntRec demonstrate that GCL mitigates dominance and coupling, establishing state-of-the-art results across both regression and classification benchmarks. Analysis experiments further demonstrate the effectiveness of the design.

Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理