MultiPress: A Multi-Agent Framework for Interpretable Multimodal News Classification

📄 arXiv: 2604.03586 📥 PDF

作者: Tailong Luo, Hao Li, Rong Fu, Xinyue Jiang, Huaxuan Ding, Yiduo Zhang, Zilin Zhao, Simon Fong, Guangyin Jin, Jianyuan Ni

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出MultiPress多智能体框架,用于可解释的多模态新闻分类。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态新闻分类 多智能体系统 检索增强推理 跨模态融合 可解释性 自然语言处理 计算机视觉

📋 核心要点

  1. 现有方法在多模态新闻分类中,难以有效捕获跨模态交互和利用外部知识。
  2. MultiPress采用多智能体框架,通过多模态感知、检索增强推理和门控融合评分实现新闻分类。
  3. 实验表明,MultiPress在多模态新闻数据集上显著优于现有基线,提升分类准确性和可解释性。

📝 摘要(中文)

随着多模态新闻内容的日益普及,有效的新闻主题分类需要模型能够联合理解和推理异构数据,例如文本和图像。现有方法通常独立处理模态或采用简单的融合策略,限制了它们捕获复杂跨模态交互和利用外部知识的能力。为了克服这些限制,我们提出了MultiPress,一种新颖的三阶段多智能体框架,用于多模态新闻分类。MultiPress集成了专门的智能体,用于多模态感知、检索增强推理和门控融合评分,然后是奖励驱动的迭代优化机制。我们在一个新构建的大规模多模态新闻数据集上验证了MultiPress,证明了相对于强基线的显著改进,并突出了模块化多智能体协作和检索增强推理在提高分类准确性和可解释性方面的有效性。

🔬 方法详解

问题定义:论文旨在解决多模态新闻分类问题,即如何有效地利用文本和图像等异构数据对新闻进行主题分类。现有方法的痛点在于,它们通常独立处理不同模态的信息,或者采用简单的融合策略,无法充分捕捉模态间的复杂交互关系,也难以有效利用外部知识来辅助分类。

核心思路:论文的核心思路是利用多智能体框架,将多模态新闻分类任务分解为多个子任务,并为每个子任务设计专门的智能体。这些智能体通过协作和交互,共同完成新闻分类任务。这种模块化的设计使得模型更易于理解和解释,同时也方便了对不同模态信息的灵活处理。此外,论文还引入了检索增强推理机制,利用外部知识来提升分类的准确性。

技术框架:MultiPress框架包含三个主要阶段:多模态感知阶段、检索增强推理阶段和门控融合评分阶段。在多模态感知阶段,模型使用专门的智能体提取文本和图像的特征表示。在检索增强推理阶段,模型利用检索到的外部知识来增强对新闻内容的理解。在门控融合评分阶段,模型使用门控机制来动态地融合不同模态的信息,并给出最终的分类结果。整个框架采用奖励驱动的迭代优化机制进行训练。

关键创新:MultiPress的关键创新在于其模块化的多智能体框架和检索增强推理机制。多智能体框架使得模型更易于理解和解释,同时也方便了对不同模态信息的灵活处理。检索增强推理机制则利用外部知识来提升分类的准确性。与现有方法相比,MultiPress能够更好地捕捉模态间的复杂交互关系,并有效利用外部知识来辅助分类。

关键设计:在多模态感知阶段,可以使用预训练的语言模型(如BERT)和图像模型(如ResNet)来提取文本和图像的特征表示。在检索增强推理阶段,可以使用知识图谱或搜索引擎来检索相关的外部知识。在门控融合评分阶段,可以使用注意力机制或门控循环单元(GRU)来实现门控机制。奖励函数的设计需要考虑分类的准确性和可解释性。

🖼️ 关键图片

fig_0

📊 实验亮点

MultiPress在自建的大规模多模态新闻数据集上进行了验证,实验结果表明,MultiPress显著优于现有的强基线模型。具体而言,MultiPress在分类准确率上取得了明显的提升,并且在可解释性方面也表现出优势。这证明了模块化多智能体协作和检索增强推理在提高多模态新闻分类性能方面的有效性。

🎯 应用场景

该研究成果可应用于智能新闻推荐、舆情分析、虚假新闻检测等领域。通过更准确地理解新闻内容,可以为用户提供更个性化的新闻推荐,帮助政府和企业更好地了解舆情动态,并有效识别和抵制虚假新闻的传播。未来,该方法还可以扩展到其他多模态信息处理任务中,例如多模态对话系统和多模态情感分析。

📄 摘要(原文)

With the growing prevalence of multimodal news content, effective news topic classification demands models capable of jointly understanding and reasoning over heterogeneous data such as text and images. Existing methods often process modalities independently or employ simplistic fusion strategies, limiting their ability to capture complex cross-modal interactions and leverage external knowledge. To overcome these limitations, we propose MultiPress, a novel three-stage multi-agent framework for multimodal news classification. MultiPress integrates specialized agents for multimodal perception, retrieval-augmented reasoning, and gated fusion scoring, followed by a reward-driven iterative optimization mechanism. We validate MultiPress on a newly constructed large-scale multimodal news dataset, demonstrating significant improvements over strong baselines and highlighting the effectiveness of modular multi-agent collaboration and retrieval-augmented reasoning in enhancing classification accuracy and interpretability.