A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits
作者: Miao Xie, Siguang Chen, Chunli Lv
分类: cs.CL, cs.LG
发布日期: 2026-01-19 (更新: 2026-01-21)
备注: 27 pages, 6 table
🔗 代码/项目: GITHUB
💡 一句话要点
首个组件级综述:探索大语言模型与多臂老虎机双向交互
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多臂老虎机 强化学习 人机交互 检索增强生成
📋 核心要点
- 现有方法在LLM和MAB结合时,缺乏系统性的组件级分析,阻碍了更深入的理解和应用。
- 该综述从组件层面分析LLM和MAB的交互,揭示它们如何相互增强,从而实现更优的性能。
- 通过分析现有系统,总结关键挑战和代表性发现,为未来研究提供指导,并开源相关文献索引。
📝 摘要(中文)
大型语言模型(LLM)已成为强大且广泛使用的语言理解和生成系统,而多臂老虎机(MAB)算法为不确定性下的自适应决策提供了一个原则性框架。本综述探讨了这两个领域交叉的潜力。据我们所知,这是第一个在组件级别系统地回顾大型语言模型和多臂老虎机之间双向交互的综述。我们强调了双向的好处:MAB算法解决了LLM的关键挑战,涵盖从预训练到检索增强生成(RAG)和个性化。反之,LLM通过重新定义诸如臂定义和环境建模等核心组件来增强MAB系统,从而改善顺序任务中的决策。我们分析了现有的LLM增强的老虎机系统和老虎机增强的LLM系统,提供了对其设计、方法和性能的见解。确定了关键挑战和代表性发现,以帮助指导未来的研究。随附的GitHub存储库索引了相关文献,网址为https://github.com/bucky1119/Awesome-LLM-Bandit-Interaction。
🔬 方法详解
问题定义:现有方法在将大型语言模型(LLM)和多臂老虎机(MAB)结合时,缺乏系统性的分析框架,尤其是在组件层面。这导致研究人员难以理解LLM和MAB如何相互作用,以及如何有效地利用它们来解决实际问题。现有的研究往往集中在特定的应用场景,缺乏通用性和可扩展性。
核心思路:本综述的核心思路是将LLM和MAB的交互分解为组件级别的交互,从而更清晰地理解它们之间的关系。通过分析LLM如何增强MAB的各个组件(例如,臂的定义、环境建模),以及MAB如何解决LLM的挑战(例如,预训练、检索增强生成),揭示它们之间的双向互益关系。这种组件化的分析方法有助于研究人员更好地设计和优化LLM-MAB系统。
技术框架:该综述首先介绍了LLM和MAB的基本概念和技术。然后,它将LLM-MAB交互分解为以下几个主要组件:1) LLM增强MAB:包括LLM如何用于臂的定义、奖励函数的设计、环境建模等;2) MAB增强LLM:包括MAB如何用于预训练、检索增强生成、个性化等。对于每个组件,综述都分析了现有的研究工作,并总结了它们的优缺点。最后,综述讨论了LLM-MAB交互的未来研究方向和挑战。
关键创新:本综述最重要的创新点在于提出了一个组件化的分析框架,用于理解LLM和MAB的交互。这是第一个在组件级别系统地回顾大型语言模型和多臂老虎机之间双向交互的综述。与现有研究相比,该综述更加全面和深入,能够帮助研究人员更好地理解LLM和MAB之间的关系,并设计出更有效的LLM-MAB系统。
关键设计:该综述的关键设计在于如何将LLM-MAB交互分解为组件级别的交互。具体来说,综述将LLM-MAB交互分解为LLM增强MAB和MAB增强LLM两个主要方面,并进一步将每个方面分解为更小的组件,例如臂的定义、奖励函数的设计、环境建模等。这种分解方法使得研究人员能够更清晰地理解LLM和MAB如何相互作用,并设计出更有效的LLM-MAB系统。
📊 实验亮点
该综述系统性地回顾了LLM和MAB的交互,并分析了现有系统的设计、方法和性能。通过对现有研究的分析,总结了关键挑战和代表性发现,为未来研究提供了指导。此外,该综述还开源了一个包含相关文献索引的GitHub存储库,方便研究人员查找和学习。
🎯 应用场景
该研究成果可广泛应用于推荐系统、对话系统、信息检索等领域。通过结合LLM的强大语言理解和生成能力以及MAB的自适应决策能力,可以构建更加智能和高效的系统。例如,在推荐系统中,可以使用LLM来理解用户的偏好,并使用MAB来选择最佳的推荐策略。在对话系统中,可以使用LLM来生成自然流畅的回复,并使用MAB来优化对话策略。
📄 摘要(原文)
Large language models (LLMs) have become powerful and widely used systems for language understanding and generation, while multi-armed bandit (MAB) algorithms provide a principled framework for adaptive decision-making under uncertainty. This survey explores the potential at the intersection of these two fields. As we know, it is the first survey to systematically review the bidirectional interaction between large language models and multi-armed bandits at the component level. We highlight the bidirectional benefits: MAB algorithms address critical LLM challenges, spanning from pre-training to retrieval-augmented generation (RAG) and personalization. Conversely, LLMs enhance MAB systems by redefining core components such as arm definition and environment modeling, thereby improving decision-making in sequential tasks. We analyze existing LLM-enhanced bandit systems and bandit-enhanced LLM systems, providing insights into their design, methodologies, and performance. Key challenges and representative findings are identified to help guide future research. An accompanying GitHub repository that indexes relevant literature is available at https://github.com/bucky1119/Awesome-LLM-Bandit-Interaction.