ClarifyMT-Bench: Benchmarking and Improving Multi-Turn Clarification for Conversational Large Language Models

📄 arXiv: 2512.21120v1 📥 PDF

作者: Sichun Luo, Yi Huang, Mukai Li, Shichang Meng, Fengyuan Liu, Zefa Hu, Junlan Feng, Qi Liu

分类: cs.CL, cs.IR

发布日期: 2025-12-24


💡 一句话要点

提出ClarifyMT-Bench,用于评测和提升会话大语言模型的多轮澄清能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 澄清 大语言模型 基准测试 人机交互

📋 核心要点

  1. 现有LLM澄清基准主要关注单轮交互或合作用户,无法有效评估真实场景下的多轮澄清能力。
  2. 论文提出ClarifyAgent,将澄清过程分解为感知、预测、跟踪和规划四个阶段,提升模型在模糊条件下的鲁棒性。
  3. 通过ClarifyMT-Bench评估,发现现有LLM存在欠澄清偏差,而ClarifyAgent能有效缓解该问题,提升澄清效果。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被部署为开放域、多轮环境中的会话助手,在这些环境中,用户经常提供不完整或模糊的信息。然而,现有的以LLM为中心的澄清基准主要假设单轮交互或合作用户,限制了它们在真实环境中评估澄清行为的能力。我们引入了 extbf{ClarifyMT-Bench},这是一个基于五维模糊性分类和一组六个行为多样的模拟用户角色构建的多轮澄清基准。通过混合LLM-人工流程,我们构建了6,120个多轮对话,捕捉了不同的模糊性来源和交互模式。对十个代表性LLM的评估揭示了一种一致的欠澄清偏差:LLM倾向于过早回答,并且性能随着对话深度的增加而降低。为了缓解这个问题,我们提出了 extbf{ClarifyAgent},一种将澄清分解为感知、预测、跟踪和规划的代理方法,从而显著提高了各种模糊性条件下的鲁棒性。ClarifyMT-Bench为研究LLM何时应该提问、何时应该回答以及如何在真实的人机交互中处理模糊性奠定了可复现的基础。

🔬 方法详解

问题定义:现有的大语言模型在多轮对话中,面对用户提供的不完整或模糊信息时,缺乏有效的澄清机制。现有的澄清基准测试主要集中在单轮交互或假设用户是完全配合的,这与真实场景存在较大差距,无法充分评估和提升模型在复杂多轮对话中的澄清能力。因此,如何构建一个更贴近真实场景的多轮澄清基准,并设计有效的澄清策略,是本文要解决的核心问题。

核心思路:论文的核心思路是构建一个更真实的、包含多种模糊性来源和用户行为模式的多轮对话数据集,并基于此提出一个agentic的澄清框架。通过模拟真实用户在多轮对话中的行为,可以更全面地评估LLM的澄清能力。同时,将澄清过程分解为多个可控的步骤,有助于模型更好地理解用户意图,并采取合适的澄清策略。

技术框架:ClarifyMT-Bench的构建流程包含以下几个主要阶段:首先,定义了一个五维的模糊性分类体系,用于描述不同类型的用户输入模糊性。其次,设计了六种行为多样的模拟用户角色,模拟真实用户在对话中的不同行为模式。然后,通过混合LLM-人工流程,生成包含多种模糊性来源和交互模式的6,120个多轮对话。ClarifyAgent框架则将澄清过程分解为四个模块:感知(Perception)、预测(Forecasting)、跟踪(Tracking)和规划(Planning)。感知模块负责理解用户输入中的模糊性;预测模块预测用户可能的意图;跟踪模块记录对话历史和澄清状态;规划模块决定何时提问、何时回答,以及如何提问。

关键创新:论文的关键创新在于:1) 提出了ClarifyMT-Bench,一个更贴近真实场景的多轮澄清基准,包含多种模糊性来源和用户行为模式。2) 提出了ClarifyAgent,一个agentic的澄清框架,将澄清过程分解为感知、预测、跟踪和规划四个模块,从而更好地控制澄清过程。与现有方法相比,ClarifyAgent能够更有效地处理复杂的多轮对话,并缓解LLM的欠澄清偏差。

关键设计:ClarifyAgent的关键设计包括:感知模块使用LLM来识别用户输入中的模糊性类型;预测模块使用LLM来预测用户可能的意图,并计算每个意图的置信度;跟踪模块维护一个对话状态,记录对话历史、澄清状态和用户意图的置信度;规划模块基于对话状态和用户意图的置信度,决定何时提问、何时回答,以及如何提问。规划模块使用一个基于规则的策略,根据不同的模糊性类型和用户意图的置信度,选择合适的澄清策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的LLM普遍存在欠澄清偏差,即倾向于过早回答,导致性能下降。而ClarifyAgent能够显著缓解这一问题,在ClarifyMT-Bench上取得了更好的性能。例如,在某些模糊性条件下,ClarifyAgent的性能提升幅度超过10%。

🎯 应用场景

该研究成果可应用于各种人机对话系统,例如智能客服、虚拟助手等。通过提升LLM的澄清能力,可以减少用户与系统之间的沟通成本,提高用户满意度。未来,该研究可以进一步扩展到更复杂的对话场景,例如涉及多个参与者的群聊、需要长期记忆的持续对话等。

📄 摘要(原文)

Large language models (LLMs) are increasingly deployed as conversational assistants in open-domain, multi-turn settings, where users often provide incomplete or ambiguous information. However, existing LLM-focused clarification benchmarks primarily assume single-turn interactions or cooperative users, limiting their ability to evaluate clarification behavior in realistic settings. We introduce \textbf{ClarifyMT-Bench}, a benchmark for multi-turn clarification grounded in a five-dimensional ambiguity taxonomy and a set of six behaviorally diverse simulated user personas. Through a hybrid LLM-human pipeline, we construct 6,120 multi-turn dialogues capturing diverse ambiguity sources and interaction patterns. Evaluating ten representative LLMs uncovers a consistent under-clarification bias: LLMs tend to answer prematurely, and performance degrades as dialogue depth increases. To mitigate this, we propose \textbf{ClarifyAgent}, an agentic approach that decomposes clarification into perception, forecasting, tracking, and planning, substantially improving robustness across ambiguity conditions. ClarifyMT-Bench establishes a reproducible foundation for studying when LLMs should ask, when they should answer, and how to navigate ambiguity in real-world human-LLM interactions.