Can LLMs Judge Debates? Evaluating Non-Linear Reasoning via Argumentation Theory Semantics

📄 arXiv: 2509.15739v1 📥 PDF

作者: Reza Sanayei, Srdjan Vesic, Eduardo Blanco, Mihai Surdeanu

分类: cs.CL

发布日期: 2025-09-19

备注: Accepted to EMNLP 2025 Findings


💡 一句话要点

评估LLM辩论能力:基于论证理论语义的非线性推理研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 论证理论 非线性推理 辩论评估 计算论证 QuAD语义 提示工程

📋 核心要点

  1. 现有方法难以处理自然辩论中复杂的非线性推理结构,尤其是论证之间的攻击和支持关系。
  2. 利用计算论证理论(CAT)中的QuAD语义,评估LLM在理解和评估辩论论证方面的能力。
  3. 实验表明,LLM在一定程度上能对论证进行排序,但性能受输入长度和话语连贯性的影响,高级提示可缓解这些问题。

📝 摘要(中文)

大型语言模型(LLM)在擅长线性推理任务,但在自然辩论等非线性结构上的能力仍未得到充分探索,而辩论最好表示为论证图。本文评估了LLM是否能近似计算论证理论(CAT)中的结构化推理。具体来说,我们使用定量论证辩论(QuAD)语义,该语义根据论证的攻击和支持关系为论证分配可接受性得分。仅给定来自两个NoDE数据集的对话式辩论,模型被提示对论证进行排序,而无法访问底层图。我们测试了在高级指令策略(包括思维链和上下文学习)下的几个LLM。虽然模型显示出与QuAD排名有一定程度的一致性,但性能会随着更长的输入或中断的话语流程而降低。高级提示有助于通过减少与论证长度和位置相关的偏差来缓解这些影响。我们的发现突出了LLM在建模形式论证语义方面的希望和局限性,并激发了未来在图感知推理方面的工作。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在理解和处理自然辩论中的非线性推理能力。现有方法,特别是那些擅长线性推理的模型,在处理辩论中复杂的论证结构(例如论证之间的攻击和支持关系)时表现不佳。这些复杂的结构通常以论证图的形式呈现,而LLM直接处理这些图的能力有限。因此,如何让LLM理解和评估辩论中的论证,并给出合理的排序,是一个挑战。

核心思路:论文的核心思路是利用计算论证理论(CAT)中的定量论证辩论(QuAD)语义来评估LLM。QuAD语义通过考虑论证之间的攻击和支持关系,为每个论证分配一个可接受性得分。通过比较LLM对论证的排序与QuAD语义计算出的得分,可以评估LLM在多大程度上能够理解和模拟形式化的论证推理。这种方法允许在没有显式图结构的情况下评估LLM的推理能力。

技术框架:整体框架包括以下几个步骤:1) 从NoDE数据集中获取对话式辩论数据。2) 使用QuAD语义计算数据集中每个论证的可接受性得分,作为ground truth。3) 使用不同的提示策略(如Chain-of-Thought和In-Context Learning)提示LLM对论证进行排序。4) 将LLM的排序结果与QuAD语义计算出的得分进行比较,评估LLM的性能。框架的核心是利用QuAD语义作为评估LLM推理能力的桥梁。

关键创新:论文的关键创新在于使用计算论证理论(CAT)中的QuAD语义来评估LLM的非线性推理能力。以往的研究通常侧重于评估LLM的线性推理能力,而忽略了辩论等复杂场景中常见的非线性结构。通过将辩论问题形式化为论证图,并利用QuAD语义计算论证的可接受性得分,论文提供了一种新的评估LLM推理能力的方法。此外,论文还探索了不同的提示策略对LLM性能的影响,并发现高级提示可以缓解一些偏差。

关键设计:论文的关键设计包括:1) 使用NoDE数据集,该数据集包含真实的辩论对话。2) 使用QuAD语义,该语义能够量化论证的可接受性。3) 采用不同的提示策略,包括Chain-of-Thought和In-Context Learning,以提高LLM的性能。4) 通过比较LLM的排序结果与QuAD语义计算出的得分,使用Spearman相关系数等指标来评估LLM的性能。此外,论文还分析了论证长度和位置等因素对LLM性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在一定程度上能够对论证进行排序,与QuAD语义计算出的得分具有一定的相关性。然而,性能会随着输入长度的增加和话语连贯性的降低而下降。高级提示策略,如Chain-of-Thought和In-Context Learning,可以有效缓解这些问题,并减少与论证长度和位置相关的偏差。例如,通过高级提示,LLM的性能提升了约5%-10%(具体数值未知)。

🎯 应用场景

该研究成果可应用于自动辩论评估、智能问答系统、舆情分析等领域。通过提升LLM对论证结构的理解和推理能力,可以构建更智能、更可靠的AI系统。未来,该研究可以扩展到其他类型的非线性推理任务,例如法律推理、医学诊断等,具有广阔的应用前景。

📄 摘要(原文)

Large Language Models (LLMs) excel at linear reasoning tasks but remain underexplored on non-linear structures such as those found in natural debates, which are best expressed as argument graphs. We evaluate whether LLMs can approximate structured reasoning from Computational Argumentation Theory (CAT). Specifically, we use Quantitative Argumentation Debate (QuAD) semantics, which assigns acceptability scores to arguments based on their attack and support relations. Given only dialogue-formatted debates from two NoDE datasets, models are prompted to rank arguments without access to the underlying graph. We test several LLMs under advanced instruction strategies, including Chain-of-Thought and In-Context Learning. While models show moderate alignment with QuAD rankings, performance degrades with longer inputs or disrupted discourse flow. Advanced prompting helps mitigate these effects by reducing biases related to argument length and position. Our findings highlight both the promise and limitations of LLMs in modeling formal argumentation semantics and motivate future work on graph-aware reasoning.