DiscoverLLM: From Executing Intents to Discovering Them
作者: Tae Soo Kim, Yoonjoo Lee, Jaesang Yu, John Joon Young Chung, Juho Kim
分类: cs.AI, cs.CL, cs.HC, cs.LG
发布日期: 2026-02-03
💡 一句话要点
提出DiscoverLLM框架,通过意图发现提升LLM在开放式任务中的交互性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 意图发现 用户模拟器 人机交互 强化学习
📋 核心要点
- 现有LLM在处理开放式请求时,缺乏引导用户发现自身意图的能力,导致交互效率低下。
- DiscoverLLM通过用户模拟器建模意图层级,利用意图具体化程度作为奖励,训练LLM自适应地探索和细化用户意图。
- 实验表明,DiscoverLLM在多个任务中显著提升了任务性能和用户满意度,并减少了对话长度。
📝 摘要(中文)
为了处理模糊和开放式的请求,大型语言模型(LLM)越来越多地被训练成与用户交互,以挖掘他们尚未表达的意图(例如,提出澄清问题)。然而,用户常常表达模糊,因为他们尚未形成明确的意图:他们需要观察和探索结果来发现自己想要什么。简单地询问“你想要什么样的语气?”在用户自己也不知道的情况下是无效的。我们介绍DiscoverLLM,这是一个新颖且通用的框架,用于训练LLM来帮助用户形成和发现他们的意图。我们方法的核心是一个新颖的用户模拟器,它使用意图层次结构来建模认知状态,随着模型呈现相关的选项,意图会逐渐具体化——具体化的程度作为奖励信号,模型可以被训练来优化。由此产生的模型学会通过自适应地发散(即探索选项)在意图不明确时与用户协作,并在意图具体化时收敛(即细化和实现)。在创意写作、技术写作和SVG绘图等交互式基准测试中,DiscoverLLM实现了超过10%的任务性能提升,同时减少了高达40%的对话长度。在一项包含75名人类参与者的用户研究中,与基线相比,DiscoverLLM提高了对话满意度和效率。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理用户意图不明确或未完全形成的开放式任务时的不足。现有方法通常依赖于直接询问或预定义的意图分类,无法有效地引导用户探索和发现自身的需求,导致交互效率低下,用户体验不佳。例如,在创意写作或设计任务中,用户可能无法清晰地表达对风格、内容或细节的偏好,而LLM需要通过有效的交互来帮助用户逐步明确意图。
核心思路:DiscoverLLM的核心思路是训练LLM主动帮助用户形成和发现意图,而不是仅仅被动地响应用户的指令。该方法通过构建一个用户模拟器,模拟用户在交互过程中意图逐步具体化的过程,并利用意图具体化的程度作为奖励信号,引导LLM学习如何自适应地探索和细化用户意图。当用户意图不明确时,LLM会主动探索不同的选项,帮助用户发现潜在的需求;当用户意图逐渐明确时,LLM则会专注于细化和实现用户的目标。
技术框架:DiscoverLLM的技术框架主要包括以下几个部分:1) 用户模拟器:模拟用户在交互过程中的认知状态,使用意图层级结构表示用户意图,并根据LLM的反馈逐步具体化意图。2) 奖励函数:基于意图具体化的程度计算奖励信号,引导LLM学习如何最大化意图具体化程度。3) LLM训练:使用强化学习或其他训练方法,训练LLM与用户模拟器进行交互,学习如何自适应地探索和细化用户意图。整体流程是LLM根据当前对话状态生成回复,用户模拟器根据回复更新意图状态并给出奖励,LLM根据奖励调整策略。
关键创新:DiscoverLLM的关键创新在于提出了一个新颖的用户模拟器,能够模拟用户意图逐步具体化的过程。与传统的用户模拟器不同,DiscoverLLM的用户模拟器不仅能够响应LLM的指令,还能够根据LLM的反馈动态地调整自身的意图状态。此外,DiscoverLLM还提出了基于意图具体化程度的奖励函数,能够有效地引导LLM学习如何帮助用户发现和形成意图。这种方法使得LLM能够更加主动地与用户进行交互,从而提高交互效率和用户满意度。
关键设计:用户模拟器使用意图层级结构来表示用户意图,每一层代表不同抽象程度的意图。意图具体化程度可以通过计算意图层级中已确定节点的数量来衡量。奖励函数可以设计为意图具体化程度的线性函数或非线性函数,以控制LLM探索和细化的平衡。LLM可以使用常见的序列到序列模型,并使用策略梯度算法进行训练。关键参数包括意图层级的深度、奖励函数的系数、以及强化学习的超参数等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DiscoverLLM在创意写作、技术写作和SVG绘图等任务中,相比于基线方法,任务性能提升超过10%,对话长度减少高达40%。用户研究表明,与基线相比,DiscoverLLM显著提高了用户的对话满意度和效率。这些结果表明,DiscoverLLM能够有效地帮助用户发现和形成意图,从而提升人机交互的质量和效率。
🎯 应用场景
DiscoverLLM具有广泛的应用前景,可应用于创意写作辅助、技术文档生成、代码生成、设计工具等领域。通过引导用户发现自身意图,DiscoverLLM能够显著提升用户在这些领域的创造力和生产力。未来,该技术有望应用于更复杂的任务,例如产品设计、战略规划等,成为人机协作的重要组成部分。
📄 摘要(原文)
To handle ambiguous and open-ended requests, Large Language Models (LLMs) are increasingly trained to interact with users to surface intents they have not yet expressed (e.g., ask clarification questions). However, users are often ambiguous because they have not yet formed their intents: they must observe and explore outcomes to discover what they want. Simply asking "what kind of tone do you want?" fails when users themselves do not know. We introduce DiscoverLLM, a novel and generalizable framework that trains LLMs to help users form and discover their intents. Central to our approach is a novel user simulator that models cognitive state with a hierarchy of intents that progressively concretize as the model surfaces relevant options -- where the degree of concretization serves as a reward signal that models can be trained to optimize. Resulting models learn to collaborate with users by adaptively diverging (i.e., explore options) when intents are unclear, and converging (i.e., refine and implement) when intents concretize. Across proposed interactive benchmarks in creative writing, technical writing, and SVG drawing, DiscoverLLM achieves over 10% higher task performance while reducing conversation length by up to 40%. In a user study with 75 human participants, DiscoverLLM improved conversation satisfaction and efficiency compared to baselines.