Asking Clarifying Questions for Preference Elicitation With Large Language Models
作者: Ali Montazeralghaem, Guy Tennenholtz, Craig Boutilier, Ofer Meshi
分类: cs.AI
发布日期: 2025-10-13
💡 一句话要点
提出基于扩散模型的澄清问题生成方法,提升LLM偏好获取能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 偏好获取 澄清问题 扩散模型 推荐系统 对话系统 用户画像
📋 核心要点
- 现有推荐系统在用户历史数据不足时,难以通过对话有效获取用户偏好,导致个性化推荐效果不佳。
- 该论文提出一种基于扩散模型的两阶段方法,通过前向加噪和反向去噪过程,训练LLM生成序列澄清问题。
- 实验结果表明,该方法显著提升了LLM提出漏斗型问题和有效获取用户偏好的能力。
📝 摘要(中文)
大型语言模型(LLMs)使得推荐系统能够通过开放式的对话界面与用户交互。为了个性化LLM的响应,获取用户偏好至关重要,尤其是在用户历史有限的情况下。一种获取更多信息的方式是向用户提出澄清问题。然而,在各种领域生成有效的序列澄清问题仍然是一个挑战。为了解决这个问题,我们提出了一种新颖的方法,用于训练LLM提出能够揭示用户偏好的序列问题。我们的方法遵循一个受扩散模型启发的两阶段过程。从用户画像开始,前向过程生成澄清问题以获得答案,然后逐步删除这些答案,作为向用户画像添加“噪声”的一种方式。反向过程涉及训练一个模型通过学习提出有效的澄清问题来“去噪”用户画像。我们的结果表明,我们的方法显著提高了LLM在提出漏斗问题和有效获取用户偏好方面的能力。
🔬 方法详解
问题定义:论文旨在解决推荐系统中,当用户历史信息匮乏时,如何利用大型语言模型(LLM)通过对话有效地获取用户偏好,从而实现个性化推荐的问题。现有方法在生成有效的序列澄清问题方面存在挑战,难以在不同领域泛化,并且可能效率低下,无法快速收敛到用户的真实偏好。
核心思路:论文的核心思路是借鉴扩散模型的思想,将用户偏好获取过程类比为图像去噪过程。通过前向过程逐步“破坏”用户画像,再通过反向过程学习如何通过提问来“恢复”用户画像,从而训练LLM生成有效的澄清问题。这种方法鼓励模型学习提问策略,以便在信息不完整的情况下,逐步逼近用户的真实偏好。
技术框架:整体框架包含两个阶段:前向过程(Forward Process)和反向过程(Reverse Process)。 1. 前向过程:从初始用户画像开始,逐步生成澄清问题并获取用户的回答,然后逐步移除这些回答,相当于向用户画像中添加“噪声”。 2. 反向过程:训练LLM,使其能够根据当前的用户画像状态,生成下一个最有效的澄清问题,并通过用户的回答逐步“去噪”,恢复完整的用户画像。这个过程迭代进行,直到模型能够准确地预测用户的偏好。
关键创新:该方法最重要的创新点在于将扩散模型的思想引入到澄清问题生成任务中。与传统的基于规则或模板的方法相比,该方法能够学习到更灵活、更有效的提问策略,从而更好地适应不同的用户和领域。此外,通过前向加噪和反向去噪的过程,模型能够更好地理解用户偏好之间的关系,并生成更具针对性的问题。
关键设计: 1. 用户画像表示:用户画像需要被表示成模型可以处理的形式,例如向量或文本描述。 2. 问题生成模型:使用LLM作为问题生成模型,需要设计合适的prompt,引导LLM生成高质量的澄清问题。 3. 损失函数:损失函数的设计至关重要,需要能够衡量模型生成的澄清问题是否有效,以及是否能够帮助模型更好地理解用户偏好。例如,可以使用交叉熵损失函数来衡量模型预测的用户回答与真实回答之间的差异。 4. 训练策略:需要设计合适的训练策略,例如课程学习或对抗训练,以提高模型的泛化能力和鲁棒性。
🖼️ 关键图片
📊 实验亮点
论文提出的方法在澄清问题生成和用户偏好获取方面取得了显著的提升。具体性能数据未知,但论文强调该方法显著提高了LLM提出漏斗型问题和有效获取用户偏好的能力。与现有方法相比,该方法能够生成更具针对性和信息量的澄清问题,从而更有效地了解用户的真实偏好。未来的研究可以进一步量化这些提升,并与其他基线方法进行更详细的比较。
🎯 应用场景
该研究成果可应用于各种需要个性化推荐的场景,例如电商、电影推荐、音乐推荐等。通过与用户进行对话,系统能够更准确地了解用户的偏好,从而提供更符合用户需求的推荐结果。此外,该方法还可以应用于智能客服领域,帮助客服人员更快速地了解用户的问题,并提供更有效的解决方案。未来,该方法有望进一步发展,实现更智能、更个性化的用户交互体验。
📄 摘要(原文)
Large Language Models (LLMs) have made it possible for recommendation systems to interact with users in open-ended conversational interfaces. In order to personalize LLM responses, it is crucial to elicit user preferences, especially when there is limited user history. One way to get more information is to present clarifying questions to the user. However, generating effective sequential clarifying questions across various domains remains a challenge. To address this, we introduce a novel approach for training LLMs to ask sequential questions that reveal user preferences. Our method follows a two-stage process inspired by diffusion models. Starting from a user profile, the forward process generates clarifying questions to obtain answers and then removes those answers step by step, serving as a way to add
noise'' to the user profile. The reverse process involves training a model todenoise'' the user profile by learning to ask effective clarifying questions. Our results show that our method significantly improves the LLM's proficiency in asking funnel questions and eliciting user preferences effectively.