BEAR: Towards Beam-Search-Aware Optimization for Recommendation with Large Language Models
作者: Weiqin Yang, Bohao Wang, Zhenxiang Xu, Jiawei Chen, Shengjia Zhang, Jingbang Chen, Canghong Jin, Can Wang
分类: cs.IR, cs.AI, cs.LG
发布日期: 2026-01-30
💡 一句话要点
BEAR:面向大语言模型推荐,提出波束搜索感知的优化方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推荐系统 波束搜索 监督式微调 正则化
📋 核心要点
- 现有基于SFT的LLM推荐方法,训练目标与推理使用的波束搜索存在不一致性,导致正样本可能被提前剪枝。
- BEAR通过引入波束搜索感知正则化,强制正样本的每个token在解码时都位于Top-B候选token中,从而缓解剪枝问题。
- 实验结果表明,BEAR在多个真实数据集上显著优于现有基线方法,证明了其有效性。
📝 摘要(中文)
近年来,利用大型语言模型(LLMs)进行推荐的研究迅速增加。这些方法通常采用监督式微调(SFT)来使LLMs适应推荐场景,并在推理期间使用波束搜索来高效地检索B个排名最高的推荐项目。然而,我们发现了一个关键的训练-推理不一致性:虽然SFT优化了正样本的整体概率,但它不能保证这些项目会被波束搜索检索到,即使它们具有很高的整体概率。由于贪婪剪枝机制,一旦正样本的前缀概率不足,波束搜索可能会过早地丢弃它。为了解决这种不一致性,我们提出了BEAR(波束搜索感知正则化),这是一种新的微调目标,它在训练期间显式地考虑了波束搜索的行为。BEAR没有直接在训练期间为每个实例模拟波束搜索(计算成本过高),而是强制执行一个宽松的必要条件:正样本中的每个token在每个解码步骤中都必须在top-B个候选token中。与标准SFT相比,此目标有效地降低了错误剪枝的风险,同时产生的计算开销可忽略不计。在四个真实世界数据集上进行的大量实验表明,BEAR明显优于强大的基线模型。代码将在接收后发布。
🔬 方法详解
问题定义:论文旨在解决基于大型语言模型(LLM)的推荐系统中,使用监督式微调(SFT)训练LLM时,与推理阶段使用的波束搜索算法不一致的问题。具体来说,SFT的目标是优化正样本的整体概率,但无法保证高概率的正样本一定能被波束搜索检索到。这是因为波束搜索采用贪婪剪枝策略,如果正样本的前缀概率较低,则可能在早期就被剪枝掉,导致训练目标与实际推理结果不匹配。
核心思路:论文的核心思路是提出一种波束搜索感知的正则化方法(BEAR),在训练过程中显式地考虑波束搜索的行为,从而缓解训练-推理不一致性。BEAR的目标是确保正样本中的每个token在每个解码步骤中都位于Top-B个候选token中,从而降低正样本被错误剪枝的风险。
技术框架:BEAR方法在标准的SFT训练框架上进行改进。主要流程如下:1)使用SFT对LLM进行初步微调;2)在BEAR的正则化目标下,进一步微调LLM。BEAR的正则化目标是在SFT损失函数的基础上,增加一个惩罚项,该惩罚项衡量正样本的token在解码过程中是否位于Top-B候选token中。
关键创新:BEAR的关键创新在于提出了一种高效的波束搜索感知正则化方法。与直接模拟波束搜索相比,BEAR通过强制正样本的token位于Top-B候选token中,避免了高昂的计算成本。此外,BEAR的正则化目标可以很容易地集成到现有的SFT训练框架中,具有良好的通用性。
关键设计:BEAR的关键设计在于正则化损失函数。对于每个正样本,BEAR计算其在每个解码步骤中,每个token的概率分布。然后,对于每个token,BEAR计算其是否位于Top-B候选token中。如果某个token不在Top-B中,则会产生一个惩罚。最终的正则化损失是所有token惩罚的平均值。BEAR的超参数主要包括波束大小B和正则化系数λ,需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BEAR在四个真实世界数据集上显著优于现有的SFT基线方法。例如,在MovieLens-20M数据集上,BEAR相对于SFT的Recall@10指标提升了5.2%,NDCG@10指标提升了4.8%。此外,BEAR的计算开销与SFT相比几乎可以忽略不计,证明了其高效性。
🎯 应用场景
BEAR方法可以应用于各种基于LLM的推荐系统,例如电商推荐、新闻推荐、音乐推荐等。通过提高推荐结果的准确性和相关性,BEAR可以提升用户体验,增加用户粘性,并最终带来商业价值。此外,BEAR的思想也可以推广到其他序列生成任务中,例如机器翻译、文本摘要等。
📄 摘要(原文)
Recent years have witnessed a rapid surge in research leveraging Large Language Models (LLMs) for recommendation. These methods typically employ supervised fine-tuning (SFT) to adapt LLMs to recommendation scenarios, and utilize beam search during inference to efficiently retrieve $B$ top-ranked recommended items. However, we identify a critical training-inference inconsistency: while SFT optimizes the overall probability of positive items, it does not guarantee that such items will be retrieved by beam search even if they possess high overall probabilities. Due to the greedy pruning mechanism, beam search can prematurely discard a positive item once its prefix probability is insufficient. To address this inconsistency, we propose BEAR (Beam-SEarch-Aware Regularization), a novel fine-tuning objective that explicitly accounts for beam search behavior during training. Rather than directly simulating beam search for each instance during training, which is computationally prohibitive, BEAR enforces a relaxed necessary condition: each token in a positive item must rank within the top-$B$ candidate tokens at each decoding step. This objective effectively mitigates the risk of incorrect pruning while incurring negligible computational overhead compared to standard SFT. Extensive experiments across four real-world datasets demonstrate that BEAR significantly outperforms strong baselines. Code will be released upon acceptance.