Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics

📄 arXiv: 2509.15739v1 📥 PDF

作者: Reza Sanayei, Srdjan Vesic, Eduardo Blanco, Mihai Surdeanu

分类: cs.CL

发布日期: 2025-09-19

备注: Accepted to EMNLP 2025 Findings


💡 一句话要点

评估LLM在辩论中的非线性推理能力:基于论证理论语义

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 论证理论 非线性推理 辩论评估 QuAD语义

📋 核心要点

  1. 现有方法在处理自然辩论等非线性推理结构时存在不足,难以有效建模论证间的复杂关系。
  2. 论文提出利用计算论证理论(CAT)中的QuAD语义,评估LLM在结构化推理中的表现。
  3. 实验结果表明,LLM在一定程度上能对齐QuAD排名,但长输入和语篇中断会降低性能,高级提示可缓解偏差。

📝 摘要(中文)

大型语言模型(LLM)在擅长线性推理任务,但在自然辩论中发现的非线性结构(最好表示为论证图)方面的探索仍然不足。本文评估了LLM是否可以近似计算论证理论(CAT)中的结构化推理。具体来说,我们使用定量论证辩论(QuAD)语义,该语义根据论证的攻击和支持关系为论证分配可接受性分数。仅给定来自两个NoDE数据集的对话格式辩论,模型被提示对论证进行排序,而无需访问底层图。我们测试了在高级指令策略(包括思维链和上下文学习)下的几个LLM。虽然模型显示出与QuAD排名有一定程度的对齐,但性能会随着更长的输入或中断的语篇流程而降低。高级提示有助于通过减少与论证长度和位置相关的偏差来缓解这些影响。我们的发现突出了LLM在建模形式论证语义方面的希望和局限性,并激发了未来在图感知推理方面的工作。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在处理和理解自然辩论中的非线性推理能力。现有方法,特别是那些专注于线性推理的模型,在处理辩论中复杂的论证关系(例如攻击和支持关系)时表现不佳。这些关系通常以论证图的形式表示,而LLM在没有显式图结构信息的情况下,难以有效地推断论证的可接受性。

核心思路:论文的核心思路是利用计算论证理论(CAT)中的定量论证辩论(QuAD)语义来评估LLM。QuAD语义为论证分配基于其攻击和支持关系的可接受性分数。通过比较LLM生成的论证排名与QuAD语义计算出的排名,可以评估LLM在多大程度上能够近似结构化推理。这种方法允许在没有显式图结构的情况下评估LLM的推理能力。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 从NoDE数据集中选择对话格式的辩论数据。2) 使用不同的提示策略(如思维链和上下文学习)来引导LLM对辩论中的论证进行排名。3) 使用QuAD语义计算数据集中论证的理论排名。4) 将LLM生成的排名与QuAD排名进行比较,以评估LLM的性能。5) 分析不同因素(如输入长度、语篇流程和提示策略)对LLM性能的影响。

关键创新:该研究的关键创新在于使用计算论证理论的语义(特别是QuAD语义)来评估LLM在非线性推理任务中的表现。与以往主要关注线性推理任务的研究不同,该研究关注LLM在处理更复杂、更自然的论证结构方面的能力。此外,该研究还探索了不同的提示策略,以提高LLM在论证推理任务中的性能。

关键设计:关键设计包括:1) 使用对话格式的辩论数据,以模拟真实的辩论场景。2) 采用不同的提示策略,包括思维链(Chain-of-Thought)和上下文学习(In-Context Learning),以引导LLM进行推理。3) 使用QuAD语义作为评估LLM性能的黄金标准。4) 分析输入长度和语篇流程对LLM性能的影响,以识别LLM的局限性。

📊 实验亮点

实验结果表明,LLM在一定程度上能够对齐QuAD排名,表明其具备一定的论证推理能力。然而,性能会随着输入长度的增加和语篇流程的中断而下降。高级提示策略,如思维链和上下文学习,能够有效缓解这些问题,减少与论证长度和位置相关的偏差。例如,通过优化提示,LLM的性能提升了约5%-10%(具体数据未知)。

🎯 应用场景

该研究成果可应用于自动辩论评估、智能客服、舆情分析等领域。通过提升LLM对论证结构的理解能力,可以构建更智能的辩论系统,辅助人类进行决策,并更准确地分析社会舆论走向。未来,该研究可促进人机协作在复杂推理场景中的应用。

📄 摘要(原文)

Large Language Models (LLMs) excel at linear reasoning tasks but remain underexplored on non-linear structures such as those found in natural debates, which are best expressed as argument graphs. We evaluate whether LLMs can approximate structured reasoning from Computational Argumentation Theory (CAT). Specifically, we use Quantitative Argumentation Debate (QuAD) semantics, which assigns acceptability scores to arguments based on their attack and support relations. Given only dialogue-formatted debates from two NoDE datasets, models are prompted to rank arguments without access to the underlying graph. We test several LLMs under advanced instruction strategies, including Chain-of-Thought and In-Context Learning. While models show moderate alignment with QuAD rankings, performance degrades with longer inputs or disrupted discourse flow. Advanced prompting helps mitigate these effects by reducing biases related to argument length and position. Our findings highlight both the promise and limitations of LLMs in modeling formal argumentation semantics and motivate future work on graph-aware reasoning.