Clarify, Abstain or Answer? Strategising in Conversation with Belief-Augmented Generation
作者: Joris Baan, Wilker Aziz, Barbara Plank, Raquel Fernández
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-25
💡 一句话要点
提出信念增强生成(BAG),提升LLM在对话式问答中澄清、回答或拒绝的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 对话式问答 信念增强生成 不确定性建模 策略决策
📋 核心要点
- 现有LLM在对话式问答中,面对不确定信息时,缺乏有效的澄清或拒绝机制,影响了回答的准确性。
- 论文提出信念增强生成(BAG),通过提示让LLM基于自身生成的多个答案(信念状态)进行推理,从而决定最佳对话策略。
- 实验表明,BAG能显著提升LLM在模糊问答中的准确性,并使其策略选择更符合其内在的信念状态。
📝 摘要(中文)
大型语言模型(LLM)定义了文本上的分布,可以将其视为不确定性的概率表示:采样K个响应会产生一个信念状态,即模型认为合理的响应。现有工作利用这种表示进行狭窄的任务,例如解码或选择性预测,并且通常需要手动干预,无法直接控制生成。我们提出了信念增强生成(BAG):通过提示将LLM置于其自身的信念状态中,并让它们推理这K个样本,以决定对话策略:回答、澄清或拒绝。在多轮模糊问答环境中,我们发现LLM默认情况下很少澄清或拒绝,忽略了关于输入或事实的不确定性。BAG提高了六个模型的问答准确性,并产生了比仅提示基线更忠实于信念状态的策略决策。然而,区分何时澄清和何时拒绝仍然具有挑战性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在多轮对话式问答中,面对模糊或不确定性问题时,缺乏有效策略来决定是直接回答、请求澄清还是选择拒绝回答的问题。现有方法通常依赖于人工干预或简单的解码策略,无法充分利用LLM自身对答案不确定性的感知能力,导致回答准确率低,且缺乏可解释性。
核心思路:核心思路是让LLM利用自身生成的多个答案(即“信念状态”)来指导其对话策略。通过将这些答案作为上下文信息融入到提示(Prompt)中,LLM可以基于对这些答案的分析和推理,更明智地决定是直接回答问题、请求用户澄清问题,还是选择拒绝回答。这种方法模拟了人类在面对不确定信息时的决策过程。
技术框架:BAG框架主要包含以下几个阶段: 1. 信念状态生成:使用LLM对问题进行多次采样,生成K个不同的答案,构成LLM的“信念状态”。 2. 信念增强提示:将生成的K个答案作为上下文信息,添加到原始问题的提示中,形成增强后的提示。 3. 策略决策:使用LLM基于增强后的提示,生成对话策略(回答、澄清或拒绝)以及相应的回答内容。 4. 策略执行:根据LLM选择的策略,执行相应的操作,例如直接给出答案、请求用户澄清问题或拒绝回答。
关键创新:关键创新在于将LLM自身的信念状态(即生成的多个答案)融入到提示中,从而让LLM能够基于对自身不确定性的感知来做出更明智的对话策略决策。这与以往依赖人工干预或简单解码策略的方法不同,充分利用了LLM自身的推理能力。
关键设计: 1. 提示工程:设计有效的提示模板,将信念状态以清晰的方式呈现给LLM,使其能够理解并利用这些信息。 2. 采样策略:选择合适的采样方法(如Top-K采样、Nucleus采样)来生成多样化的答案,以充分反映LLM的不确定性。 3. 策略分类器:使用LLM本身作为策略分类器,通过提示引导其输出“回答”、“澄清”或“拒绝”等标签。 4. 损失函数:论文未明确提及特定的损失函数,但可以通过强化学习等方法,根据策略的正确性来优化LLM的策略决策能力(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BAG方法在六个不同的LLM模型上均能提高问答准确性。与仅使用提示的基线方法相比,BAG能够产生更忠实于LLM自身信念状态的策略决策。虽然区分何时澄清和何时拒绝仍然具有挑战性,但整体性能提升显著,证明了BAG方法的有效性。
🎯 应用场景
该研究成果可应用于智能客服、对话式问答系统、智能助手等领域,提升系统在处理模糊或不确定性问题时的鲁棒性和准确性。通过让系统能够主动澄清问题或拒绝回答不确定问题,可以提高用户体验,并避免给出错误或误导性的答案。未来可进一步探索如何更有效地利用LLM的信念状态,以及如何将BAG与其他对话管理技术相结合。
📄 摘要(原文)
Large language models (LLMs) define a distribution over text, which can be viewed as a probabilistic representation of uncertainty: sampling K responses yields a belief state - responses a model deems plausible. Existing work exploits this representation for narrow tasks like either decoding or selective prediction, and often requires manual interventions, not controlling generation directly. We propose Belief-Augmented Generation (BAG): grounding LLMs in their own belief state via the prompt and letting them reason over these K samples to decide on a conversational strategy: answer, clarify, or abstain. In a multi-turn ambiguous QA setting, we find that LLMs by default rarely clarify or abstain, ignoring uncertainty about the input or facts. BAG improves QA accuracy across six models and yields strategy decisions more faithful to the belief state than prompt-only baselines. Disentangling when to clarify from when to abstain, however, remains challenging.