Bridging the Gap: Self-Optimized Fine-Tuning for LLM-based Recommender Systems

作者: Heng Tang, Feng Liu, Xinbo Chen, Jiawei Chen, Bohao Wang, Changwang Zhang, Jun Wang, Yuegang Sun, Bingde Hu, Can Wang

分类: cs.IR, cs.AI

发布日期: 2025-05-27

💡 一句话要点

提出自优化微调SOFT方法，弥合LLM在推荐系统中的知识鸿沟

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM推荐系统 自优化微调 课程学习 自蒸馏 知识迁移

📋 核心要点

现有LLM推荐方法，如“仅指导”和“仅微调”，无法有效弥合LLM知识空间与推荐任务之间的差距，导致性能不佳。
论文提出自优化微调（SOFT）方法，结合指导和微调的优势，利用课程学习的思想，使LLM逐步学习推荐知识。
实验结果表明，SOFT显著提高了基于LLM的推荐方法的准确性，平均提升幅度达到37.59%。

📝 摘要（中文）

近年来，大型语言模型（LLM）在推荐系统（RS）领域得到了广泛的探索。目前有两种常用的策略使LLM具备推荐能力：1）“仅指导”策略，利用上下文学习来挖掘和放大LLM固有的语义理解和项目推荐能力；2）“仅微调”策略，使用监督微调（SFT）来微调LLM，使其适应真实的推荐数据。然而，这两种策略都不能有效地弥合LLM的知识空间与推荐之间的差距，并且它们的性能未达到预期。为了更好地使LLM学习推荐知识，我们结合了上述两种策略的优点，提出了一种新颖的“指导+微调”方法，称为自优化微调（SOFT），它采用了课程学习的思想。它首先采用自蒸馏从微调的LLM构建一个辅助的、易于学习但有意义的数据集。然后，它进一步利用自适应课程调度器，使LLM能够逐步从更简单的数据（自蒸馏数据）学习到更具挑战性的数据（真实RS数据）。大量的实验表明，SOFT显著提高了基于LLM的方法的推荐准确性（平均提高37.59%）。

🔬 方法详解

问题定义：现有基于LLM的推荐系统方法，要么依赖于LLM自身的泛化能力（“仅指导”），要么直接在推荐数据上进行微调（“仅微调”）。前者无法充分利用推荐数据的特定知识，后者则可能导致LLM遗忘原有知识，且难以适应推荐数据的复杂性。因此，如何有效地将LLM的通用知识迁移到推荐任务中，是本文要解决的核心问题。

核心思路：本文的核心思路是结合“指导”和“微调”两种策略的优点，并引入课程学习的思想。首先，通过自蒸馏生成易于学习的辅助数据集，然后，利用自适应课程调度器，让LLM从简单到复杂逐步学习，从而更好地适应推荐任务。这种方法旨在弥合LLM的知识空间与推荐任务之间的差距，提高推荐准确性。

技术框架：SOFT方法包含两个主要阶段：1) 自蒸馏阶段：使用微调后的LLM生成辅助数据集，该数据集包含更简单、更易于学习的推荐知识。2) 课程学习阶段：利用自适应课程调度器，控制LLM从自蒸馏数据和真实推荐数据中学习的比例。课程调度器会根据LLM的学习进度，动态调整两种数据的权重，使LLM能够逐步适应更具挑战性的真实数据。

关键创新：SOFT方法的关键创新在于将自蒸馏和课程学习相结合，并应用于LLM的推荐系统微调。自蒸馏生成易于学习的辅助数据，缓解了直接在复杂推荐数据上微调LLM的困难。自适应课程调度器则保证了LLM能够从简单到复杂逐步学习，避免了灾难性遗忘，并提高了泛化能力。

关键设计：自蒸馏阶段，使用微调后的LLM对原始推荐数据进行预测，并将预测结果作为辅助数据集。课程学习阶段，使用一个自适应课程调度器，根据LLM在验证集上的性能，动态调整自蒸馏数据和真实数据的权重。损失函数通常采用交叉熵损失或BPR损失，用于优化LLM的推荐性能。课程调度器的具体实现可以采用线性调度、指数调度等方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SOFT方法在多个推荐数据集上取得了显著的性能提升。例如，在平均推荐准确率上，SOFT相比于基线方法平均提升了37.59%。这表明SOFT能够有效地弥合LLM的知识空间与推荐任务之间的差距，提高推荐系统的性能。

🎯 应用场景

该研究成果可广泛应用于各种基于LLM的推荐系统，例如电商推荐、新闻推荐、视频推荐等。通过自优化微调，可以显著提高推荐系统的准确性和用户满意度。此外，该方法还可以推广到其他需要将LLM应用于特定领域的任务中，具有重要的实际应用价值和未来发展潜力。

📄 摘要（原文）

Recent years have witnessed extensive exploration of Large Language Models (LLMs) on the field of Recommender Systems (RS). There are currently two commonly used strategies to enable LLMs to have recommendation capabilities: 1) The "Guidance-Only" strategy uses in-context learning to exploit and amplify the inherent semantic understanding and item recommendation capabilities of LLMs; 2) The "Tuning-Only" strategy uses supervised fine-tuning (SFT) to fine-tune LLMs with the aim of fitting them to real recommendation data. However, neither of these strategies can effectively bridge the gap between the knowledge space of LLMs and recommendation, and their performance do not meet our expectations. To better enable LLMs to learn recommendation knowledge, we combine the advantages of the above two strategies and proposed a novel "Guidance+Tuning" method called Self-Optimized Fine-Tuning (SOFT), which adopts the idea of curriculum learning. It first employs self-distillation to construct an auxiliary easy-to-learn but meaningful dataset from a fine-tuned LLM. Then it further utilizes a self-adaptive curriculum scheduler to enable LLMs to gradually learn from simpler data (self-distilled data) to more challenging data (real RS data). Extensive experiments demonstrate that SOFT significantly enhances the recommendation accuracy (37.59\% on average) of LLM-based methods. The code is available via https://anonymous.4open.science/r/Self-Optimized-Fine-Tuning-264E

Bridging the Gap: Self-Optimized Fine-Tuning for LLM-based Recommender Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理