Reasoning Gets Harder for LLMs Inside A Dialogue

📄 arXiv: 2603.20133v1 📥 PDF

作者: Ivan Kartáč, Mateusz Lango, Ondřej Dušek

分类: cs.CL

发布日期: 2026-03-20

备注: Preprint


💡 一句话要点

揭示对话场景下LLM推理能力下降:提出BOULDER动态基准评测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 对话系统 基准测试 面向任务对话

📋 核心要点

  1. 现有LLM推理评估主要集中于孤立任务,与真实面向任务的对话场景存在差距,难以准确反映实际推理能力。
  2. 论文提出BOULDER基准,包含旅行相关任务,区分孤立和对话两种模式,旨在更真实地评估LLM在对话中的推理能力。
  3. 实验表明,LLM在对话场景下的推理性能显著下降,主要受对话轮数、角色设定和工具使用等因素影响。

📝 摘要(中文)

大型语言模型(LLMs)在许多推理基准测试中表现出色,但这些评估通常侧重于孤立的任务,这与面向任务的对话(TOD)中的实际使用不同。在TOD中,LLMs必须在生成文本的同时进行推理,并遵守角色、格式和风格的指令。这种不匹配引发了人们对基准测试性能是否准确反映模型在TOD环境中推理鲁棒性的担忧。我们通过引入BOULDER来研究在TOD中构建推理任务如何影响LLM的性能。BOULDER是一个新的动态基准,涵盖八个与旅行相关的任务,这些任务需要算术、空间和时间推理,同时包含常识和形式化方面。每个问题都以孤立和基于对话的变体呈现,从而实现受控比较,同时减轻数据污染。对八个LLM的实验表明,孤立环境和对话环境之间存在显着且一致的性能差距。通过消融研究和定性分析,我们表明这种差距主要由对话的多轮性质驱动,以及角色条件和工具使用要求的额外影响。我们的结果强调需要在真实的交互场景中评估LLM的推理能力。

🔬 方法详解

问题定义:论文旨在解决现有LLM推理能力评估方法与真实对话场景不符的问题。现有方法主要关注孤立任务,忽略了对话交互带来的复杂性,无法准确评估LLM在实际应用中的推理鲁棒性。这种评估方式的局限性在于,它无法捕捉到LLM在多轮对话中进行推理、理解上下文、以及根据角色和指令进行响应的能力。

核心思路:论文的核心思路是通过构建一个更贴近真实对话场景的基准测试,来评估LLM的推理能力。该基准测试包含一系列需要算术、空间和时间推理的旅行相关任务,并提供孤立和对话两种模式。通过比较LLM在两种模式下的性能差异,可以更准确地评估其在对话环境中的推理能力。这种设计允许研究者控制变量,分析对话交互对LLM推理性能的影响。

技术框架:论文提出了BOULDER基准,包含以下几个关键组成部分:1) 一系列旅行相关的推理任务,涵盖算术、空间和时间推理;2) 每个任务都提供孤立和对话两种模式,用于比较LLM在不同场景下的性能;3) 一套评估指标,用于衡量LLM的推理准确性和对话流畅性。整体流程是,首先将任务输入LLM,然后根据LLM的输出评估其推理准确性和对话质量。

关键创新:论文的关键创新在于提出了BOULDER基准,该基准更真实地模拟了LLM在面向任务的对话中的应用场景。与现有基准测试相比,BOULDER考虑了对话交互带来的复杂性,例如多轮对话、角色设定和工具使用。这种设计使得BOULDER能够更准确地评估LLM在实际应用中的推理鲁棒性。

关键设计:BOULDER基准的关键设计包括:1) 任务的多样性,涵盖不同类型的推理需求;2) 对话模式的设计,模拟真实对话场景;3) 评估指标的全面性,既考虑推理准确性,又考虑对话质量。此外,论文还进行了消融研究,分析了不同因素(如对话轮数、角色设定和工具使用)对LLM推理性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在BOULDER基准的对话模式下,性能显著低于孤立模式。例如,某些LLM在对话模式下的准确率下降了10%以上。消融研究表明,对话轮数、角色设定和工具使用是导致性能下降的主要因素。这些结果强调了在真实交互场景中评估LLM推理能力的重要性。

🎯 应用场景

该研究成果可应用于开发更智能、更可靠的对话系统,例如智能客服、旅行助手等。通过更准确地评估和提升LLM在对话场景下的推理能力,可以提高对话系统的实用性和用户体验。未来的研究可以进一步探索如何利用BOULDER基准来训练和优化LLM,使其在复杂对话环境中表现更好。

📄 摘要(原文)

Large Language Models (LLMs) achieve strong performance on many reasoning benchmarks, yet these evaluations typically focus on isolated tasks that differ from real-world usage in task-oriented dialogue (TOD). In this setting, LLMs must perform reasoning inherently while generating text and adhering to instructions on role, format, and style. This mismatch raises concerns about whether benchmark performance accurately reflects models' reasoning robustness in TOD setting. We investigate how framing reasoning tasks within TOD affects LLM performance by introducing BOULDER, a new dynamic benchmark covering eight travel-related tasks that require arithmetic, spatial, and temporal reasoning with both commonsense and formal aspects. Each problem is presented in both isolated and dialogue-based variants, enabling controlled comparison while mitigating data contamination. Experiments on eight LLMs reveal a substantial and consistent performance gap between isolated and dialogue settings. Through ablations and qualitative analysis, we show that this gap is largely driven by the multi-turn nature of dialogue, with additional effects from role conditioning and tool-use requirements. Our results highlight the need to evaluate LLM reasoning in realistic interactive scenarios.