Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation

📄 arXiv: 2602.20723v1 📥 PDF

作者: Ji Dai, Quan Fang, Dengsheng Cai

分类: cs.AI

发布日期: 2026-02-24


💡 一句话要点

提出MAGNET模型,通过模态引导的图专家混合网络和熵触发路由,提升多模态推荐效果。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推荐 图神经网络 专家混合 熵触发路由 模态融合 长尾推荐 推荐系统

📋 核心要点

  1. 现有方法在多模态推荐中依赖共享融合路径,导致表征纠缠和模态不平衡,难以有效融合异构模态信息。
  2. MAGNET模型通过模态引导的图专家混合网络,结合交互条件专家路由和结构感知图增强,实现可控、稳定和可解释的多模态融合。
  3. 实验结果表明,MAGNET在公共数据集上显著优于现有基线模型,验证了其在多模态推荐中的有效性。

📝 摘要(中文)

多模态推荐通过整合用户-物品交互信息与物品内容来增强排序效果,尤其在稀疏反馈和长尾分布下有效。然而,多模态信号本质上是异构的,并且在特定上下文中可能冲突,使得有效融合至关重要且具有挑战性。现有方法通常依赖于共享融合路径,导致表征纠缠和模态不平衡。为了解决这些问题,我们提出了MAGNET,一个具有渐进熵触发路由的模态引导自适应图专家混合网络,用于多模态推荐,旨在增强多模态融合的可控性、稳定性和可解释性。MAGNET将交互条件专家路由与结构感知图增强相结合,从而显式地控制和解释融合的内容和方式。在表征层面,双视图图学习模块通过内容诱导的边来增强交互图,提高稀疏和长尾物品的覆盖率,同时通过并行编码和轻量级融合来保持协作结构。在融合层面,MAGNET采用具有显式模态角色的结构化专家——主导型、平衡型和互补型——从而能够更具解释性和自适应性地组合行为、视觉和文本线索。为了进一步稳定稀疏路由并防止专家崩溃,我们引入了一种两阶段熵加权机制,该机制监控路由熵。该机制自动将训练从早期的覆盖导向机制过渡到后期的专业化导向机制,逐步平衡专家利用率和路由置信度。在公共基准上的大量实验表明,相对于强大的基线,MAGNET 取得了持续的改进。

🔬 方法详解

问题定义:多模态推荐旨在利用物品的多种模态信息(如文本、图像)来提升推荐系统的性能,尤其是在用户行为数据稀疏的情况下。然而,不同模态的信息具有异构性,简单地将它们融合会导致信息冗余和模态冲突,现有方法难以有效处理模态间的复杂关系,导致推荐效果不佳。

核心思路:MAGNET的核心思路是将多模态融合过程解耦为多个专家,每个专家负责处理特定模态或模态组合,并通过一个可学习的路由机制来决定每个用户-物品交互应该由哪个专家来处理。这种方式可以避免模态间的直接干扰,并允许模型根据不同的交互场景自适应地选择合适的融合策略。同时,通过引入熵触发机制,可以保证专家之间的负载均衡,避免某些专家被过度使用而其他专家被忽略。

技术框架:MAGNET的整体框架包含以下几个主要模块:1) 双视图图学习模块:构建用户-物品交互图,并利用物品的内容信息(文本、图像)增强图结构,提高长尾物品的覆盖率。2) 模态引导的图专家混合网络:包含多个图专家,每个专家负责处理特定模态或模态组合。3) 交互条件专家路由:根据用户-物品交互信息,动态地选择合适的专家进行处理。4) 渐进熵触发路由:通过监控路由熵,自动调整专家选择的策略,平衡专家利用率和路由置信度。

关键创新:MAGNET的关键创新在于其模态引导的专家混合网络和熵触发路由机制。与现有方法相比,MAGNET能够更精细地控制多模态信息的融合过程,避免模态间的直接干扰,并根据不同的交互场景自适应地选择合适的融合策略。熵触发路由机制则保证了专家之间的负载均衡,提高了模型的鲁棒性和泛化能力。

关键设计:在双视图图学习模块中,使用GCN进行图编码,并采用轻量级融合方式结合交互图和内容图的信息。在专家混合网络中,设计了三种类型的专家:主导型、平衡型和互补型,分别负责处理不同的模态组合。路由机制采用Gumbel-Softmax技巧,实现可微分的专家选择。损失函数包括推荐损失(BPR损失)和路由熵损失,用于优化模型参数和平衡专家利用率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MAGNET在多个公共数据集上显著优于现有基线模型,例如在Yelp2018数据集上,相对于表现最佳的基线模型,MAGNET在Recall@20指标上提升了3.2%,在NDCG@20指标上提升了2.8%。这些结果验证了MAGNET在多模态推荐中的有效性。

🎯 应用场景

MAGNET模型可应用于各种需要利用多模态信息的推荐场景,例如电商、视频、音乐等。通过有效融合物品的文本、图像等信息,可以提升推荐系统的准确性和个性化程度,尤其是在用户行为数据稀疏的情况下,具有重要的实际应用价值。该研究的成果也有助于推动多模态信息融合技术的发展。

📄 摘要(原文)

Multimodal recommendation enhances ranking by integrating user-item interactions with item content, which is particularly effective under sparse feedback and long-tail distributions. However, multimodal signals are inherently heterogeneous and can conflict in specific contexts, making effective fusion both crucial and challenging. Existing approaches often rely on shared fusion pathways, leading to entangled representations and modality imbalance. To address these issues, we propose \textbf{MAGNET}, a \textbf{M}odality-Guided Mixture of \textbf{A}daptive \textbf{G}raph Experts \textbf{N}etwork with Progressive \textbf{E}ntropy-\textbf{T}riggered Routing for Multimodal Recommendation, designed to enhance controllability, stability, and interpretability in multimodal fusion. MAGNET couples interaction-conditioned expert routing with structure-aware graph augmentation, so that both \emph{what} to fuse and \emph{how} to fuse are explicitly controlled and interpretable. At the representation level, a dual-view graph learning module augments the interaction graph with content-induced edges, improving coverage for sparse and long-tail items while preserving collaborative structure via parallel encoding and lightweight fusion. At the fusion level, MAGNET employs structured experts with explicit modality roles -- dominant, balanced, and complementary -- enabling a more interpretable and adaptive combination of behavioral, visual, and textual cues. To further stabilize sparse routing and prevent expert collapse, we introduce a two-stage entropy-weighting mechanism that monitors routing entropy. This mechanism automatically transitions training from an early coverage-oriented regime to a later specialization-oriented regime, progressively balancing expert utilization and routing confidence. Extensive experiments on public benchmarks demonstrate consistent improvements over strong baselines.