Jump Starting Bandits with LLM-Generated Prior Knowledge

📄 arXiv: 2406.19317v2 📥 PDF

作者: Parand A. Alamdari, Yanshuai Cao, Kevin H. Wilson

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-06-27 (更新: 2024-10-29)


💡 一句话要点

利用LLM生成先验知识,加速Contextual Bandit算法学习

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Contextual Bandit 大型语言模型 推荐系统 冷启动 先验知识 在线学习 提示工程

📋 核心要点

  1. Contextual Bandit算法在推荐系统中应用广泛,但冷启动阶段数据收集成本高,影响用户体验。
  2. 利用LLM预训练的知识,模拟人类偏好,为Contextual Bandit提供高质量的初始化数据,减少在线探索的需求。
  3. 实验表明,该方法能有效降低在线学习的遗憾值,减少数据收集成本,提升推荐系统的性能。

📝 摘要(中文)

本文展示了将大型语言模型(LLM)集成到Contextual Multi-Armed Bandit框架中的显著优势。Contextual Bandit广泛应用于推荐系统中,以基于用户特定上下文生成个性化建议。我们证明了,在包含丰富人类知识和偏好的大型语料库上预训练的LLM,能够很好地模拟人类行为,从而加速Contextual Bandit的学习,降低在线学习的遗憾值。我们提出了一种Contextual Bandit的初始化算法,通过提示LLM生成一个近似人类偏好的预训练数据集。这显著降低了在线学习的遗憾值和训练此类模型的数据收集成本。我们的方法通过两组具有不同bandit设置的实验进行了经验验证:一个利用LLM作为oracle,另一个利用来自联合调查实验的真实世界数据。

🔬 方法详解

问题定义:Contextual Bandit算法在冷启动阶段面临探索-利用的难题,需要大量的在线数据才能学习到有效的策略。现有的随机初始化或基于规则的初始化方法效果不佳,导致较高的初始遗憾值和较慢的学习速度。

核心思路:利用LLM强大的知识表示和推理能力,模拟人类用户在特定上下文中的偏好,生成高质量的先验知识。将这些先验知识作为Contextual Bandit的初始化数据,引导算法更快地找到最优策略。这样设计的目的是为了减少在线探索的需要,降低冷启动阶段的遗憾值。

技术框架:整体流程包括:1) 使用提示工程(Prompt Engineering)引导LLM生成针对特定Contextual Bandit问题的偏好数据集。2) 使用生成的数据集预训练Contextual Bandit模型。3) 将预训练的模型部署到在线环境中,进行进一步的在线学习和优化。主要模块包括LLM偏好生成模块和Contextual Bandit模型训练模块。

关键创新:关键创新在于利用LLM的知识迁移能力,将预训练的语言知识转化为Contextual Bandit的先验知识。与传统的随机初始化或基于规则的初始化方法相比,LLM生成的先验知识更贴近真实用户偏好,能够更有效地引导算法学习。

关键设计:关键设计包括:1) 精心设计的LLM提示语,以确保生成的数据集能够准确反映用户在不同上下文中的偏好。2) 合适的Contextual Bandit模型选择,例如线性UCB、Thompson Sampling等。3) 预训练数据集的大小和质量,需要根据具体问题进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,利用LLM生成的先验知识能够显著降低Contextual Bandit算法的在线学习遗憾值。在模拟实验中,该方法优于传统的随机初始化方法。在真实世界的联合调查实验中,该方法也取得了显著的性能提升,表明其具有实际应用价值。

🎯 应用场景

该研究成果可广泛应用于各种推荐系统,例如电商推荐、新闻推荐、音乐推荐等。通过利用LLM提供的先验知识,可以显著提升推荐系统的冷启动性能,改善用户体验,并降低数据收集成本。此外,该方法还可以应用于其他需要在线学习的场景,例如广告投放、个性化医疗等。

📄 摘要(原文)

We present substantial evidence demonstrating the benefits of integrating Large Language Models (LLMs) with a Contextual Multi-Armed Bandit framework. Contextual bandits have been widely used in recommendation systems to generate personalized suggestions based on user-specific contexts. We show that LLMs, pre-trained on extensive corpora rich in human knowledge and preferences, can simulate human behaviours well enough to jump-start contextual multi-armed bandits to reduce online learning regret. We propose an initialization algorithm for contextual bandits by prompting LLMs to produce a pre-training dataset of approximate human preferences for the bandit. This significantly reduces online learning regret and data-gathering costs for training such models. Our approach is validated empirically through two sets of experiments with different bandit setups: one which utilizes LLMs to serve as an oracle and a real-world experiment utilizing data from a conjoint survey experiment.