Anchored Alignment: Preventing Positional Collapse in Multimodal Recommender Systems

📄 arXiv: 2603.12726v1 📥 PDF

作者: Yonghun Jeong, David Yoon Suk Kang, Yeon-Chang Lee

分类: cs.IR, cs.LG

发布日期: 2026-03-13

备注: 5 pages, 5 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出AnchorRec,通过锚定对齐解决多模态推荐系统中的位置坍塌问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推荐 锚定对齐 位置坍塌 跨模态学习 表征学习

📋 核心要点

  1. 现有基于对齐的多模态推荐系统易模糊模态特定结构,并受ID主导问题影响,导致推荐性能下降。
  2. AnchorRec通过在轻量级投影域中进行间接的、基于锚点的对齐,解耦对齐与表征学习,避免位置坍塌。
  3. 在亚马逊数据集上的实验表明,AnchorRec在Top-N推荐准确率上表现出色,并提升了多模态表达性和连贯性。

📝 摘要(中文)

多模态推荐系统(MMRS)利用图像、文本和交互信号来丰富物品表征。然而,最近基于对齐的MMRS倾向于强制统一的嵌入空间,这通常会模糊模态特定的结构并加剧ID主导问题。因此,我们提出了AnchorRec,一个多模态推荐框架,它在轻量级的投影域中执行间接的、基于锚点的对齐。通过将对齐与表征学习解耦,AnchorRec在保持跨模态一致性的同时,保留了每个模态的原始结构,并避免了位置坍塌。在四个亚马逊数据集上的实验表明,AnchorRec实现了具有竞争力的Top-N推荐准确率,而定性分析表明多模态表达性和连贯性得到了改善。AnchorRec的代码库可在https://github.com/hun9008/AnchorRec 获取。

🔬 方法详解

问题定义:多模态推荐系统旨在融合来自不同模态(如图像、文本)的信息来提升推荐性能。然而,现有基于对齐的方法,特别是那些强制将不同模态映射到统一嵌入空间的方法,容易导致模态特定信息的丢失,并且容易受到ID特征的过度影响,从而降低推荐系统的泛化能力和表达能力。这些方法的一个主要痛点是“位置坍塌”,即不同模态的表征在嵌入空间中聚集到相似的位置,失去了区分性。

核心思路:AnchorRec的核心思路是通过间接的、基于锚点的对齐来解决上述问题。它不直接将不同模态的表征映射到同一个空间,而是将它们分别投影到一个轻量级的投影域,并利用一组“锚点”来建立不同模态之间的联系。这种间接对齐的方式可以更好地保留每个模态的原始结构,避免位置坍塌,并减少ID特征的影响。

技术框架:AnchorRec的整体框架包含以下几个主要模块:1) 模态特定编码器:用于提取每个模态的特征表示。2) 投影层:将每个模态的特征表示投影到轻量级的投影域。3) 锚点选择模块:选择一组具有代表性的锚点。4) 对齐模块:利用锚点来建立不同模态之间的联系,并学习模态之间的对齐关系。5) 推荐模块:基于对齐后的模态表示进行推荐。

关键创新:AnchorRec最重要的技术创新点在于其间接的、基于锚点的对齐方式。与直接对齐方法相比,这种方法可以更好地保留模态特定信息,避免位置坍塌,并减少ID特征的影响。此外,AnchorRec的轻量级投影域设计可以降低计算复杂度,提高效率。

关键设计:AnchorRec的关键设计包括:1) 锚点的选择策略:如何选择具有代表性的锚点对对齐效果至关重要。论文可能采用了聚类、采样或其他方法来选择锚点。2) 对齐损失函数:用于衡量不同模态之间对齐程度的损失函数,例如对比损失或三元组损失。3) 投影层的结构:投影层的维度和非线性激活函数等参数设置会影响投影效果。4) 推荐模块的设计:如何将对齐后的模态表示融合到推荐模型中,例如通过注意力机制或拼接操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnchorRec在四个亚马逊数据集上进行了实验,结果表明其在Top-N推荐准确率上取得了显著提升,超过了现有的基于对齐的多模态推荐系统。定性分析表明,AnchorRec能够更好地保留模态特定信息,并生成更具表达性和连贯性的推荐结果。具体性能提升数据未知,需参考原论文。

🎯 应用场景

AnchorRec适用于各种需要融合多模态信息的推荐场景,例如电商平台的商品推荐、社交媒体的内容推荐、以及视频网站的视频推荐。该研究的实际价值在于提升推荐系统的准确性和用户体验,未来可能应用于更复杂的跨模态理解和生成任务,例如多模态对话系统和图像描述生成。

📄 摘要(原文)

Multimodal recommender systems (MMRS) leverage images, text, and interaction signals to enrich item representations. However, recent alignment based MMRSs that enforce a unified embedding space often blur modality specific structures and exacerbate ID dominance. Therefore, we propose AnchorRec, a multimodal recommendation framework that performs indirect, anchor based alignment in a lightweight projection domain. By decoupling alignment from representation learning, AnchorRec preserves each modality's native structure while maintaining cross modal consistency and avoiding positional collapse. Experiments on four Amazon datasets show that AnchorRec achieves competitive top N recommendation accuracy, while qualitative analyses demonstrate improved multimodal expressiveness and coherence. The codebase of AnchorRec is available at https://github.com/hun9008/AnchorRec.