A Metric for MLLM Alignment in Large-scale Recommendation

📄 arXiv: 2508.04963v1 📥 PDF

作者: Yubin Zhang, Yanhua Huang, Haiming Xu, Mingliang Qi, Chang Wang, Jiarui Jin, Xiangyuan Ren, Xiaodan Wang, Ruiwen Xu

分类: cs.IR, cs.LG

发布日期: 2025-08-07

备注: Pre-print.Under Review


💡 一句话要点

提出Leakage Impact Score (LIS)指标,用于大规模推荐系统中多模态大语言模型对齐评估。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态推荐 大语言模型 模型对齐 推荐系统评估 泄漏影响评分

📋 核心要点

  1. 现有静态benchmark无法准确评估推荐系统中MLLM的动态对齐问题,在线评估成本高昂,传统指标缺乏可操作性。
  2. 论文提出Leakage Impact Score (LIS)指标,通过测量偏好数据的上限,间接评估MLLM的对齐程度,降低评估成本。
  3. 在小红书的Explore Feed上进行的A/B测试表明,使用LIS能显著提升用户花费时间和广告商价值。

📝 摘要(中文)

多模态推荐已成为现代推荐系统中的关键技术,它利用了先进的多模态大语言模型(MLLM)的内容表示。为了确保这些表示能够很好地适应推荐系统,与推荐系统对齐至关重要。然而,评估用于推荐的MLLM的对齐性面临着重大挑战,主要体现在三个方面:(1)静态基准由于实际应用中的动态性而不够准确;(2)使用在线系统进行评估虽然准确,但大规模评估的成本过高;(3)当学习到的表示效果不佳时,传统的指标无法提供可操作的见解。为了应对这些挑战,我们提出了一种新的多模态推荐指标——泄漏影响评分(LIS)。LIS不是直接评估MLLM,而是有效地测量偏好数据的上限。我们还分享了在实际场景中使用LIS部署MLLM的实践见解。在小红书的Explore Feed产品的内容Feed和展示广告上的在线A/B测试表明了我们提出的方法的有效性,在用户花费时间和广告商价值方面都显示出显著的改进。

🔬 方法详解

问题定义:论文旨在解决大规模推荐系统中,如何高效、准确地评估多模态大语言模型(MLLM)与推荐系统对齐程度的问题。现有方法存在三个主要痛点:一是静态benchmark无法反映真实应用场景的动态性;二是在线A/B测试成本过高,难以大规模应用;三是传统评估指标在模型表现不佳时,无法提供有效的改进方向。

核心思路:论文的核心思路是避免直接评估MLLM本身,而是通过评估偏好数据泄露的影响来间接衡量MLLM的对齐程度。具体来说,LIS指标衡量的是在已知部分用户偏好信息的情况下,模型预测用户整体偏好的能力。如果MLLM与推荐系统对齐良好,那么泄露的偏好信息应该能显著提升模型预测的准确性。

技术框架:论文提出的LIS指标主要包含以下几个步骤:1. 从用户行为数据中抽取部分偏好信息作为“泄露”数据;2. 利用MLLM生成内容表示,并结合泄露的偏好信息训练推荐模型;3. 评估该模型在预测用户整体偏好方面的表现,得到LIS值。LIS值越高,表明MLLM与推荐系统的对齐程度越好。

关键创新:论文的关键创新在于提出了LIS指标,它是一种间接评估MLLM对齐程度的方法,避免了直接评估MLLM的复杂性和高成本。LIS指标能够有效地反映MLLM在推荐系统中的实际效果,并为模型优化提供指导方向。与传统的评估指标相比,LIS更具可操作性和实用性。

关键设计:论文中关于LIS的具体计算方法和模型训练细节未详细描述,但可以推测可能涉及以下关键设计:1. 如何选择合适的“泄露”数据,例如用户点击、购买等行为;2. 如何将泄露的偏好信息有效地融入到推荐模型中,例如通过attention机制、特征融合等;3. 如何设计合适的评估指标来衡量模型预测用户整体偏好的能力,例如AUC、NDCG等。

🖼️ 关键图片

fig_0

📊 实验亮点

论文在小红书的Explore Feed产品上进行了在线A/B测试,结果表明,使用LIS指标指导MLLM的部署和优化,能够显著提升用户花费时间和广告商价值。具体提升幅度未知,但实验结果验证了LIS指标的有效性和实用性。

🎯 应用场景

该研究成果可广泛应用于各种基于多模态内容的推荐系统,例如电商、新闻、视频等平台。通过LIS指标,可以更有效地评估和优化MLLM在推荐系统中的应用,提升用户体验和平台收益。此外,LIS指标还可以用于指导MLLM的训练和微调,使其更好地适应推荐任务。

📄 摘要(原文)

Multimodal recommendation has emerged as a critical technique in modern recommender systems, leveraging content representations from advanced multimodal large language models (MLLMs). To ensure these representations are well-adapted, alignment with the recommender system is essential. However, evaluating the alignment of MLLMs for recommendation presents significant challenges due to three key issues: (1) static benchmarks are inaccurate because of the dynamism in real-world applications, (2) evaluations with online system, while accurate, are prohibitively expensive at scale, and (3) conventional metrics fail to provide actionable insights when learned representations underperform. To address these challenges, we propose the Leakage Impact Score (LIS), a novel metric for multimodal recommendation. Rather than directly assessing MLLMs, LIS efficiently measures the upper bound of preference data. We also share practical insights on deploying MLLMs with LIS in real-world scenarios. Online A/B tests on both Content Feed and Display Ads of Xiaohongshu's Explore Feed production demonstrate the effectiveness of our proposed method, showing significant improvements in user spent time and advertiser value.