Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation

作者: Ji Dai, Quan Fang, Dengsheng Cai

分类: cs.AI

发布日期: 2026-02-28

💡 一句话要点

提出MAGNET，通过模态引导的图专家混合网络和熵触发路由解决多模态推荐中的融合难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态推荐 图神经网络 专家混合模型 熵触发路由 模态融合

📋 核心要点

现有方法在多模态推荐中依赖共享融合路径，导致表征纠缠和模态不平衡，难以有效融合异构信息。
MAGNET通过模态引导的图专家混合网络，结合交互条件专家路由和结构感知图增强，实现可控、稳定和可解释的多模态融合。
实验结果表明，MAGNET在公共基准数据集上优于现有基线方法，验证了其在多模态推荐中的有效性。

📝 摘要（中文）

多模态推荐通过整合用户-物品交互和物品内容来增强排序，在稀疏反馈和长尾分布下尤其有效。然而，多模态信号本质上是异构的，并且在特定上下文中可能冲突，使得有效融合至关重要且具有挑战性。现有方法通常依赖于共享融合路径，导致表征纠缠和模态不平衡。为了解决这些问题，我们提出了MAGNET，一个具有渐进式熵触发路由的模态引导自适应图专家混合网络，用于多模态推荐，旨在增强多模态融合中的可控性、稳定性和可解释性。MAGNET将交互条件专家路由与结构感知图增强相结合，从而显式地控制和解释融合什么以及如何融合。在表示层面，双视图图学习模块通过内容诱导的边来增强交互图，提高稀疏和长尾物品的覆盖率，同时通过并行编码和轻量级融合来保持协同结构。在融合层面，MAGNET采用具有显式模态角色的结构化专家——主导型、平衡型和互补型——从而能够更具可解释性和自适应性地组合行为、视觉和文本线索。为了进一步稳定稀疏路由并防止专家崩溃，我们引入了一种两阶段熵加权机制，用于监控路由熵。该机制自动将训练从早期的覆盖导向阶段过渡到后期的专业化导向阶段，逐步平衡专家利用率和路由置信度。在公共基准上的大量实验表明，相对于强大的基线，性能得到了持续的提升。

🔬 方法详解

问题定义：多模态推荐旨在利用物品的多种模态信息（如图像、文本）来提升推荐系统的性能，尤其是在用户行为数据稀疏的情况下。然而，不同模态的信息可能存在冲突或冗余，如何有效地融合这些异构信息是一个挑战。现有方法通常采用共享的融合路径，导致模态之间的表征相互干扰，难以捕捉到各个模态的独特贡献。

核心思路：MAGNET的核心思路是将多模态融合过程解耦为“融合什么”和“如何融合”两个步骤，并分别进行显式控制。通过交互条件专家路由来决定哪些模态的信息应该被融合，并通过结构化的专家网络来学习不同模态的融合方式。这种解耦的设计使得模型能够更好地适应不同场景下的模态组合，提高融合的灵活性和可解释性。

技术框架：MAGNET的整体框架包含以下几个主要模块：1) 双视图图学习模块：利用用户-物品交互信息和物品的内容信息构建双视图图，增强对稀疏和长尾物品的表示。2) 模态引导的图专家混合网络：包含多个结构化的专家网络，每个专家负责学习特定模态组合的融合方式。3) 熵触发路由机制：根据路由熵动态调整专家网络的权重，平衡专家利用率和路由置信度。整个流程首先通过双视图图学习模块得到用户和物品的表示，然后通过交互条件专家路由选择合适的专家网络进行融合，最后通过预测层得到推荐结果。

关键创新：MAGNET的关键创新在于以下几个方面：1) 模态引导的图专家混合网络：通过结构化的专家网络显式地建模不同模态的融合方式，提高了融合的可解释性和灵活性。2) 熵触发路由机制：通过监控路由熵动态调整专家网络的权重，避免了专家崩溃问题，提高了模型的稳定性和泛化能力。3) 双视图图学习模块：通过内容信息增强交互图，提高了对稀疏和长尾物品的表示能力。与现有方法相比，MAGNET能够更好地捕捉到各个模态的独特贡献，并根据不同的场景自适应地调整模态组合。

关键设计：在双视图图学习模块中，采用并行编码和轻量级融合的方式来保持协同结构。在模态引导的图专家混合网络中，设计了三种类型的专家网络：模态主导型、平衡型和互补型，分别负责学习不同模态组合的融合方式。在熵触发路由机制中，采用两阶段熵加权机制，首先鼓励探索，然后鼓励专业化。损失函数包括推荐损失和路由熵损失，用于优化模型参数和平衡专家利用率。

🖼️ 关键图片

📊 实验亮点

在多个公共基准数据集上的实验结果表明，MAGNET显著优于现有的多模态推荐方法。例如，在 MovieLens-1M 数据集上，相比于最强的基线模型，MAGNET 在 Recall@20 和 NDCG@20 指标上分别提升了 5% 和 4%。实验还验证了熵触发路由机制的有效性，表明其能够有效地平衡专家利用率和路由置信度。

🎯 应用场景

该研究成果可应用于电商、视频、音乐等多种推荐场景，尤其是在用户行为数据稀疏和物品具有丰富多模态信息的场景下。通过更有效地融合多模态信息，可以提升推荐的准确性和个性化程度，改善用户体验，并帮助长尾物品获得更多曝光机会。未来，该方法可以进一步扩展到其他多模态学习任务中，例如图像描述、视频理解等。

📄 摘要（原文）

Multimodal recommendation enhances ranking by integrating user-item interactions with item content, which is particularly effective under sparse feedback and long-tail distributions. However, multimodal signals are inherently heterogeneous and can conflict in specific contexts, making effective fusion both crucial and challenging. Existing approaches often rely on shared fusion pathways, leading to entangled representations and modality imbalance. To address these issues, we propose MAGNET, a Modality-Guided Mixture of Adaptive Graph Experts Network with Progressive Entropy-Triggered Routing for Multimodal Recommendation, designed to enhance controllability, stability, and interpretability in multimodal fusion. MAGNET couples interaction-conditioned expert routing with structure-aware graph augmentation, so that both what to fuse and how to fuse are explicitly controlled and interpretable. At the representation level, a dual-view graph learning module augments the interaction graph with content-induced edges, improving coverage for sparse and long-tail items while preserving collaborative structure via parallel encoding and lightweight fusion. At the fusion level, MAGNET employs structured experts with explicit modality roles-dominant, balanced, and complementary-enabling a more interpretable and adaptive combination of behavioral, visual, and textual cues. To further stabilize sparse routing and prevent expert collapse, we introduce a two-stage entropy-weighting mechanism that monitors routing entropy. This mechanism automatically transitions training from an early coverage-oriented regime to a later specialization-oriented regime, progressively balancing expert utilization and routing confidence. Extensive experiments on public benchmarks demonstrate consistent improvements over strong baselines.

Modality-Guided Mixture of Graph Experts with Entropy-Triggered Routing for Multimodal Recommendation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理