Aligning Multimodal Sequential Recommendations via Robust Direct Preference Optimization with Sparse MoE

📄 arXiv: 2603.29259v1 📥 PDF

作者: Hejin Huang, Jusheng Zhang, Kaitong Cai, Jian Wang, Rong Pan

分类: cs.IR, cs.CL

发布日期: 2026-03-31


💡 一句话要点

提出RoDPO,通过稳健直接偏好优化提升多模态序列推荐效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推荐 序列推荐 直接偏好优化 隐式反馈 负样本选择

📋 核心要点

  1. 现有基于隐式反馈的推荐系统,在DPO训练中,未观察到的物品作为负样本的可靠性不足。
  2. 提出RoDPO,通过动态top-K候选池的随机抽样替换确定性硬负样本,减少错误梯度并保留信息。
  3. 实验表明,RoDPO在Amazon数据集上,NDCG@5指标提升高达5.25%,且推理成本几乎不变。

📝 摘要(中文)

基于偏好的对齐目标已被广泛采用,从大型语言模型中的RLHF风格的成对学习到推荐系统中新兴的应用。然而,现有的工作很少研究直接偏好优化(DPO)在隐式反馈下的表现,其中未观察到的项目不是可靠的负样本。我们对多模态序列推荐进行了系统的实验,比较了常见的负样本选择策略及其与DPO训练的相互作用。我们的核心发现是,一个简单的修改,用动态top-K候选池中的随机抽样替换确定性的硬负样本,可以持续提高排序性能。我们将其有效性归因于两个因素:(1)减少由假阴性引起的错误抑制梯度,(2)在通过受控随机性平滑优化的同时,保留信息丰富的硬信号。通过一个可选的稀疏混合专家编码器来实现高效的容量扩展,RoDPO在三个Amazon基准测试中实现了高达5.25%的NDCG@5,而推理成本几乎没有变化。

🔬 方法详解

问题定义:论文旨在解决多模态序列推荐中,使用直接偏好优化(DPO)方法时,由于隐式反馈数据中负样本质量不高而导致模型性能下降的问题。现有方法通常直接将未交互的物品视为负样本,但这可能引入大量假阴性样本,导致模型学习方向错误。

核心思路:论文的核心思路是通过更稳健的负样本选择策略来改进DPO的训练过程。具体来说,不再使用确定性的硬负样本,而是从一个动态更新的top-K候选池中进行随机抽样。这种方法旨在减少假阴性样本带来的负面影响,同时保留有信息量的硬负样本信号。

技术框架:RoDPO的整体框架基于DPO,主要改进在于负样本的选择方式。首先,模型会维护一个动态的top-K候选池,该池包含当前模型认为最相关的K个物品。然后,在DPO的训练过程中,不再直接使用未交互的物品作为负样本,而是从这个top-K池中进行随机抽样。此外,论文还可选地引入了一个稀疏混合专家(MoE)编码器,以提高模型的容量和表达能力。

关键创新:论文的关键创新在于提出了基于动态top-K候选池的随机负样本选择策略。这种策略能够有效地减少假阴性样本对DPO训练的影响,同时保留了硬负样本的信息。与传统的确定性负样本选择方法相比,RoDPO更加稳健,能够更好地适应隐式反馈数据的特点。

关键设计:RoDPO的关键设计包括:1) 动态top-K候选池的维护策略,需要定期更新以反映模型当前的偏好;2) 随机抽样的概率分布,可以根据物品在top-K池中的排名进行调整,以控制抽样过程的随机性;3) 可选的稀疏MoE编码器,通过增加模型参数来提高表达能力,同时保持计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RoDPO在三个Amazon数据集上均取得了显著的性能提升。例如,在某个数据集上,RoDPO的NDCG@5指标提升了高达5.25%。与传统的DPO方法以及其他负样本选择策略相比,RoDPO表现出更强的竞争力。此外,引入稀疏MoE编码器后,模型容量得到有效扩展,性能进一步提升,而推理成本几乎没有增加。

🎯 应用场景

RoDPO方法可应用于各种多模态序列推荐场景,例如电商推荐、视频推荐、音乐推荐等。通过更准确地捕捉用户偏好,提升推荐系统的点击率、转化率等关键指标。该研究对于解决隐式反馈数据中的负样本问题具有重要的实际价值,并为未来的推荐系统研究提供了新的思路。

📄 摘要(原文)

Preference-based alignment objectives have been widely adopted, from RLHF-style pairwise learning in large language models to emerging applications in recommender systems. Yet, existing work rarely examines how Direct Preference Optimization (DPO) behaves under implicit feedback, where unobserved items are not reliable negatives. We conduct systematic experiments on multimodal sequential recommendation to compare common negative-selection strategies and their interaction with DPO training. Our central finding is that a simple modification, replacing deterministic hard negatives with stochastic sampling from a dynamic top-K candidate pool, consistently improves ranking performance. We attribute its effectiveness to two factors: (1) reducing erroneous suppressive gradients caused by false negatives, and (2) retaining informative hard signals while smoothing optimization via controlled stochasticity. With an optional sparse Mixture-of-Experts encoder for efficient capacity scaling, RoDPO achieves up to 5.25% NDCG@5 on three Amazon benchmarks, with nearly unchanged inference cost.