Selective LLM-Guided Regularization for Enhancing Recommendation Models

📄 arXiv: 2512.21526v1 📥 PDF

作者: Shanglin Yang, Zhan Shi

分类: cs.IR, cs.AI

发布日期: 2025-12-25

期刊: WSDM 2026 Workshop on Generative AI for Recommender Systems and Personalization


💡 一句话要点

提出选择性LLM引导正则化以增强推荐模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 大型语言模型 选择性正则化 知识蒸馏 冷启动 长尾物品 模型无关

📋 核心要点

  1. 现有方法在使用大型语言模型进行推荐时存在成本高、偏见和不可靠性等问题。
  2. 论文提出选择性LLM引导正则化,通过可训练的门控机制选择性激活LLM的监督,提升推荐效果。
  3. 实验结果显示,该方法在多个数据集上显著提高了推荐准确性,尤其在冷启动和长尾场景中表现优异。

📝 摘要(中文)

大型语言模型(LLM)提供丰富的语义先验和强大的推理能力,使其成为推荐系统的有前景的辅助信号。然而,现有方法要么将LLM作为独立推荐器使用,要么应用全局知识蒸馏,这两者均存在固有缺陷。独立的LLM推荐器成本高、偏见明显且在用户物品空间的广泛区域内不可靠,而全局蒸馏则迫使下游模型模仿LLM的预测,即使这种指导不准确。本文提出选择性LLM引导正则化,这是一种模型无关且计算高效的框架,仅在可训练的门控机制预测LLM可靠时激活基于LLM的成对排名监督。所有LLM评分均在离线进行,知识转移不会增加推理成本。实验表明,这种选择性策略在多个数据集上持续提高整体准确性,并在冷启动和长尾场景中取得显著提升,超越了全局蒸馏基线。

🔬 方法详解

问题定义:本文旨在解决现有推荐系统中使用大型语言模型(LLM)时的高成本、偏见和不可靠性问题。现有方法如独立LLM推荐器和全局知识蒸馏存在固有缺陷,导致推荐效果不佳。

核心思路:提出选择性LLM引导正则化,通过可训练的门控机制,依据用户历史长度、物品流行度和模型不确定性来判断LLM的可靠性,仅在可靠时激活LLM的监督,从而提高推荐模型的性能。

技术框架:整体框架包括离线LLM评分模块和基于门控机制的选择性激活模块。离线评分模块负责生成LLM的评分,而门控机制则根据输入特征判断何时使用这些评分。

关键创新:最重要的创新点在于引入了选择性激活机制,使得推荐模型能够在不同场景下灵活使用LLM的优势,避免了全局蒸馏的局限性。

关键设计:在参数设置上,门控机制的输入特征包括用户历史长度、物品流行度和模型不确定性,损失函数设计为结合LLM评分和真实标签的加权损失,以优化推荐效果。整体网络结构保持灵活性,适用于多种推荐模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,选择性LLM引导正则化在多个数据集上显著提高了推荐准确性,尤其在冷启动和长尾场景中,准确率提升幅度超过了全局蒸馏基线,显示出该方法的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括电子商务、内容推荐和社交媒体等场景,能够有效提升推荐系统在冷启动和长尾物品上的表现。通过引入选择性LLM引导正则化,推荐系统能够更好地利用大型语言模型的优势,提升用户体验和满意度,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Large language models provide rich semantic priors and strong reasoning capabilities, making them promising auxiliary signals for recommendation. However, prevailing approaches either deploy LLMs as standalone recommender or apply global knowledge distillation, both of which suffer from inherent drawbacks. Standalone LLM recommender are costly, biased, and unreliable across large regions of the user item space, while global distillation forces the downstream model to imitate LLM predictions even when such guidance is inaccurate. Meanwhile, recent studies show that LLMs excel particularly in re-ranking and challenging scenarios, rather than uniformly across all contexts.We introduce Selective LLM Guided Regularization, a model-agnostic and computation efficient framework that activates LLM based pairwise ranking supervision only when a trainable gating mechanism informing by user history length, item popularity, and model uncertainty predicts the LLM to be reliable. All LLM scoring is performed offline, transferring knowledge without increasing inference cost. Experiments across multiple datasets show that this selective strategy consistently improves overall accuracy and yields substantial gains in cold start and long tail regimes, outperforming global distillation baselines.