MMQ: Multimodal Mixture-of-Quantization Tokenization for Semantic ID Generation and User Behavioral Adaptation

📄 arXiv: 2508.15281v1 📥 PDF

作者: Yi Xu, Moyu Zhang, Chenxuan Li, Zhihao Liao, Haibo Xing, Hao Deng, Jinxin Hu, Yu Zhang, Xiaoyi Zeng, Jing Zhang

分类: cs.IR, cs.LG

发布日期: 2025-08-21

期刊: WSDM 2026


💡 一句话要点

提出多模态混合量化(MMQ)框架,用于生成语义ID并适应用户行为,提升推荐系统性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 语义ID 多模态学习 混合量化 用户行为建模 正交正则化 行为感知微调

📋 核心要点

  1. 现有推荐系统使用ItemIDs表示物品,难以处理大规模动态物品库和长尾数据,限制了系统的扩展性和泛化能力。
  2. MMQ框架提出一种新型多模态分词器,通过共享-特定专家网络和行为感知微调,生成更有效的语义ID。
  3. 实验结果表明,MMQ在离线和在线A/B测试中均表现出色,提升了推荐系统的性能,验证了其有效性。

📝 摘要(中文)

推荐系统传统上使用唯一标识符(ItemIDs)表示物品,但这种方法在大规模、动态的物品语料库和稀疏的长尾数据方面存在局限性,限制了可扩展性和泛化能力。语义ID通过将物品映射到共享语义空间,提供了一种有前景的替代方案,从而实现知识转移并改进对新物品或稀有物品的推荐。然而,现有方法面临两个关键挑战:(1)平衡跨模态协同与模态特定唯一性,(2)弥合语义-行为差距,即语义表示可能与实际用户偏好不一致。为了应对这些挑战,我们提出了多模态混合量化(MMQ),这是一个两阶段框架,用于训练一种新型的多模态分词器。首先,共享-特定分词器利用具有模态特定和模态共享专家的多专家架构,使用正交正则化来捕获全面的多模态信息。其次,行为感知微调动态地将语义ID适应到下游推荐目标,同时通过多模态重建损失来保留模态信息。广泛的离线实验和在线A/B测试表明,MMQ有效地统一了多模态协同、特异性和行为适应,为生成式检索和判别式排序任务提供了一种可扩展且通用的解决方案。

🔬 方法详解

问题定义:现有推荐系统依赖ItemIDs,无法有效处理大规模、动态的物品库,尤其是在长尾物品上表现不佳。语义ID是一种替代方案,但现有方法难以平衡跨模态信息的协同和模态自身的独特性,并且语义表示与用户实际行为之间存在差距,导致推荐效果不佳。

核心思路:MMQ的核心思路是学习一种能够同时捕捉多模态信息的协同性和模态特异性的语义ID表示,并通过行为感知的微调,使语义ID更好地适应用户的实际行为。通过这种方式,弥合语义表示和用户行为之间的差距,提升推荐系统的性能。

技术框架:MMQ框架包含两个主要阶段:(1) 共享-特定分词器训练:构建一个多专家架构,包含模态特定专家和模态共享专家,利用正交正则化来学习全面的多模态信息。(2) 行为感知微调:利用下游推荐目标对语义ID进行微调,同时使用多模态重建损失来保持模态信息。整体流程是从多模态数据中提取语义信息,然后根据用户行为进行调整,最终生成更有效的语义ID。

关键创新:MMQ的关键创新在于其多模态混合量化分词器,该分词器能够同时学习模态共享和模态特定的信息,并通过正交正则化来保证不同专家之间的信息互补。此外,行为感知微调能够使语义ID更好地适应用户的实际行为,从而提升推荐效果。

关键设计:在共享-特定分词器中,使用了多个专家网络,每个专家负责学习不同的模态信息。正交正则化被用于约束不同专家之间的参数,以保证它们学习到的信息是互补的。在行为感知微调阶段,使用了多模态重建损失来保持模态信息,防止微调过程中模态信息的丢失。具体的损失函数和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MMQ在离线实验和在线A/B测试中均取得了显著的性能提升。具体数据未知,但论文强调MMQ能够有效统一多模态协同、特异性和行为适应,为生成式检索和判别式排序任务提供了一种可扩展且通用的解决方案。相较于传统ItemIDs和现有语义ID方法,MMQ在推荐准确率和用户体验方面均有明显改善。

🎯 应用场景

MMQ框架可应用于各种推荐系统,尤其是在物品数量庞大、长尾效应显著的场景下。例如,电商平台的商品推荐、视频网站的视频推荐、新闻App的新闻推荐等。通过生成更有效的语义ID,可以提升推荐系统的准确性和用户满意度,并能更好地推广新物品和冷启动物品。

📄 摘要(原文)

Recommender systems traditionally represent items using unique identifiers (ItemIDs), but this approach struggles with large, dynamic item corpora and sparse long-tail data, limiting scalability and generalization. Semantic IDs, derived from multimodal content such as text and images, offer a promising alternative by mapping items into a shared semantic space, enabling knowledge transfer and improving recommendations for new or rare items. However, existing methods face two key challenges: (1) balancing cross-modal synergy with modality-specific uniqueness, and (2) bridging the semantic-behavioral gap, where semantic representations may misalign with actual user preferences. To address these challenges, we propose Multimodal Mixture-of-Quantization (MMQ), a two-stage framework that trains a novel multimodal tokenizer. First, a shared-specific tokenizer leverages a multi-expert architecture with modality-specific and modality-shared experts, using orthogonal regularization to capture comprehensive multimodal information. Second, behavior-aware fine-tuning dynamically adapts semantic IDs to downstream recommendation objectives while preserving modality information through a multimodal reconstruction loss. Extensive offline experiments and online A/B tests demonstrate that MMQ effectively unifies multimodal synergy, specificity, and behavioral adaptation, providing a scalable and versatile solution for both generative retrieval and discriminative ranking tasks.