Bayesian Optimization with LLM-Based Acquisition Functions for Natural Language Preference Elicitation
作者: David Eric Austin, Anton Korikov, Armin Toroghi, Scott Sanner
分类: cs.AI, cs.CL
发布日期: 2024-05-02 (更新: 2024-08-20)
💡 一句话要点
提出PEBOL,利用LLM和贝叶斯优化进行自然语言偏好引导,提升推荐系统性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 贝叶斯优化 自然语言偏好引导 对话式推荐系统 大型语言模型 自然语言推理
📋 核心要点
- 现有基于LLM的自然语言偏好引导方法缺乏多轮决策推理,难以有效平衡探索和利用用户偏好。
- 提出PEBOL算法,结合自然语言推理和贝叶斯优化策略,引导LLM生成查询,主动获取用户偏好。
- 实验结果表明,PEBOL在10轮对话后MRR@10可达0.27,优于单体LLM基线的0.17,提升显著。
📝 摘要(中文)
在冷启动环境下,快速确定用户的首选项是构建有效的个性化对话式推荐(ConvRec)系统的关键挑战。虽然大型语言模型(LLM)支持完全自然语言(NL)的偏好引导(PE)对话,但我们假设单体LLM NL-PE方法缺乏有效平衡用户偏好的探索和利用所需的多轮决策理论推理能力。相比之下,传统的贝叶斯优化PE方法定义了理论上最优的PE策略,但无法生成任意的NL查询或推理NL项目描述中的内容——要求用户通过评分或比较不熟悉的项目来表达偏好。为了克服这两种方法的局限性,我们提出了一个贝叶斯优化(BO)框架中的NL-PE,旨在主动引导NL反馈以识别最佳推荐。将BO推广到处理自然语言反馈的关键挑战包括确定:(a)如何利用LLM来建模NL偏好反馈的可能性,作为项目效用的函数,以及(b)如何为NL BO设计一个获取函数,该函数可以在无限的语言空间中引导偏好。我们在一个新的NL-PE算法PEBOL中展示了我们的框架,该算法使用:1)用户偏好话语和NL项目描述之间的自然语言推理(NLI)来维持贝叶斯偏好信念,以及2)诸如Thompson Sampling(TS)和Upper Confidence Bound(UCB)之类的BO策略来引导LLM查询生成。我们在受控模拟中对我们的方法进行了数值评估,发现经过10轮对话后,PEBOL可以达到高达0.27的MRR@10,而最佳单体LLM基线的MRR@10为0.17,尽管依赖于早期和较小的LLM。
🔬 方法详解
问题定义:论文旨在解决对话式推荐系统中,如何利用自然语言进行高效的偏好引导(Preference Elicitation, PE)问题。现有方法,如单体LLM方法,缺乏有效的探索和利用用户偏好的能力,而传统的贝叶斯优化方法又无法处理自然语言输入和输出,需要用户对不熟悉的项目进行评分或比较,用户体验不佳。
核心思路:论文的核心思路是将自然语言偏好引导问题建模为贝叶斯优化问题,并利用LLM来处理自然语言输入和输出。通过结合自然语言推理(NLI)和贝叶斯优化策略,主动引导LLM生成查询,从而更有效地获取用户偏好。
技术框架:PEBOL算法的整体框架如下:1) 初始化:初始化用户偏好的先验信念。2) 查询生成:利用贝叶斯优化中的获取函数(如Thompson Sampling或Upper Confidence Bound)选择下一个要询问的项目或属性。使用LLM生成关于该项目或属性的自然语言查询。3) 用户反馈:用户以自然语言形式提供反馈。4) 偏好更新:使用自然语言推理(NLI)技术,将用户反馈与项目描述进行比较,更新用户偏好的后验信念。5) 迭代:重复步骤2-4,直到达到预定的对话轮数或满足收敛条件。
关键创新:该论文的关键创新在于将贝叶斯优化框架扩展到自然语言偏好引导领域。具体来说,它提出了一种利用LLM建模自然语言偏好反馈似然函数的方法,并设计了一种适用于自然语言贝叶斯优化的获取函数。此外,利用自然语言推理技术来更新用户偏好信念也是一个重要的创新点。
关键设计:PEBOL算法的关键设计包括:1) 使用自然语言推理(NLI)模型来衡量用户反馈与项目描述之间的语义相似度,从而更新用户偏好信念。2) 使用Thompson Sampling或Upper Confidence Bound等贝叶斯优化策略来选择下一个要询问的项目或属性。3) 使用LLM生成自然语言查询,并对用户的自然语言反馈进行解析和理解。具体参数设置和损失函数取决于所使用的LLM和NLI模型的选择。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PEBOL算法在10轮对话后,MRR@10指标可达到0.27,显著优于最佳单体LLM基线的0.17。这表明PEBOL算法能够更有效地利用自然语言进行偏好引导,从而提高推荐系统的性能。值得注意的是,PEBOL算法依赖于早期和较小的LLM,这意味着它具有更高的效率和更低的计算成本。
🎯 应用场景
该研究成果可应用于各种对话式推荐系统,例如电影推荐、音乐推荐、商品推荐等。通过自然语言交互,系统可以更准确地理解用户需求,提供更个性化的推荐服务,提升用户体验和满意度。未来,该方法还可以扩展到其他需要主动获取用户偏好的领域,例如智能助手、个性化教育等。
📄 摘要(原文)
Designing preference elicitation (PE) methodologies that can quickly ascertain a user's top item preferences in a cold-start setting is a key challenge for building effective and personalized conversational recommendation (ConvRec) systems. While large language models (LLMs) enable fully natural language (NL) PE dialogues, we hypothesize that monolithic LLM NL-PE approaches lack the multi-turn, decision-theoretic reasoning required to effectively balance the exploration and exploitation of user preferences towards an arbitrary item set. In contrast, traditional Bayesian optimization PE methods define theoretically optimal PE strategies, but cannot generate arbitrary NL queries or reason over content in NL item descriptions -- requiring users to express preferences via ratings or comparisons of unfamiliar items. To overcome the limitations of both approaches, we formulate NL-PE in a Bayesian Optimization (BO) framework that seeks to actively elicit NL feedback to identify the best recommendation. Key challenges in generalizing BO to deal with natural language feedback include determining: (a) how to leverage LLMs to model the likelihood of NL preference feedback as a function of item utilities, and (b) how to design an acquisition function for NL BO that can elicit preferences in the infinite space of language. We demonstrate our framework in a novel NL-PE algorithm, PEBOL, which uses: 1) Natural Language Inference (NLI) between user preference utterances and NL item descriptions to maintain Bayesian preference beliefs, and 2) BO strategies such as Thompson Sampling (TS) and Upper Confidence Bound (UCB) to steer LLM query generation. We numerically evaluate our methods in controlled simulations, finding that after 10 turns of dialogue, PEBOL can achieve an MRR@10 of up to 0.27 compared to the best monolithic LLM baseline's MRR@10 of 0.17, despite relying on earlier and smaller LLMs.