Joint Effects of Argumentation Theory, Audio Modality and Data Enrichment on LLM-Based Fallacy Classification

📄 arXiv: 2509.11127v1 📥 PDF

作者: Hongxu Zhou, Hylke Westerdijk, Khondoker Ittehadul Islam

分类: cs.CL

发布日期: 2025-09-14


💡 一句话要点

研究论证理论、音频模态与数据增强对LLM谬误分类的联合影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 谬误分类 大型语言模型 论证理论 情感分析 政治辩论

📋 核心要点

  1. 现有谬误分类方法在处理政治辩论等复杂语境时,缺乏对语境信息和情感因素的有效利用。
  2. 该研究探索了论证理论框架和音频情感元数据如何影响LLM在谬误分类任务中的表现,旨在提升LLM的推理能力。
  3. 实验结果表明,添加语境和情感元数据有时会降低LLM的谬误分类性能,提示需要谨慎选择输入信息。

📝 摘要(中文)

本研究探讨了语境和情感基调元数据如何影响大型语言模型(LLM)在谬误分类任务中的推理和性能,特别是在政治辩论环境中。利用美国总统辩论的数据,我们通过应用于Qwen-3(8B)模型的各种提示策略对六种谬误类型进行分类。我们引入了两个基于理论的思维链框架:语用辩证法和论证周期表,并在三种输入设置下评估它们相对于基线提示的有效性:仅文本、文本与语境、以及文本与语境和基于音频的情感基调元数据。结果表明,虽然理论提示可以提高可解释性,在某些情况下还可以提高准确性,但添加语境,尤其是情感基调元数据,通常会导致性能下降。情感基调元数据会使模型偏向于将陈述标记为“诉诸情感”,从而恶化逻辑推理。总的来说,基本提示通常优于增强提示,这表明来自添加输入的注意力稀释可能会恶化LLM中的谬误分类,而不是改善。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在政治辩论等场景下的谬误分类问题。现有方法在处理此类问题时,往往忽略了语境信息和情感因素,导致分类准确率不高,且缺乏可解释性。此外,如何有效地利用音频模态的情感信息也是一个挑战。

核心思路:论文的核心思路是探索论证理论框架(语用辩证法和论证周期表)与音频情感元数据对LLM谬误分类性能的联合影响。通过引入这些外部知识和信息,期望提升LLM的推理能力和分类准确率。同时,研究也关注了不同提示策略对LLM性能的影响。

技术框架:整体框架包括数据预处理、提示工程和模型评估三个主要阶段。首先,从美国总统辩论数据集中提取文本和音频信息,并进行预处理。然后,设计不同的提示策略,包括基线提示、基于论证理论的提示和融合音频情感元数据的提示。最后,使用Qwen-3(8B)模型进行谬误分类,并评估不同提示策略下的性能。

关键创新:论文的关键创新在于:1) 探索了论证理论框架在LLM谬误分类中的应用;2) 研究了音频情感元数据对LLM推理的影响;3) 提出了融合语境信息和情感元数据的提示策略。与现有方法相比,该研究更注重利用外部知识和多模态信息来提升LLM的推理能力。

关键设计:论文的关键设计包括:1) 选择了Qwen-3(8B)模型作为实验平台;2) 设计了三种输入设置:仅文本、文本与语境、文本与语境和音频情感元数据;3) 采用了两种论证理论框架:语用辩证法和论证周期表;4) 使用准确率作为评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然论证理论提示在一定程度上提高了可解释性,但添加语境和情感元数据往往会降低LLM的谬误分类性能。特别是情感元数据会使模型偏向于“诉诸情感”的谬误判断。在某些情况下,简单的基线提示甚至优于复杂的增强提示,这表明添加过多信息可能会分散模型的注意力,反而降低性能。

🎯 应用场景

该研究成果可应用于政治辩论分析、舆情监控、虚假信息检测等领域。通过提升LLM在谬误识别方面的能力,可以帮助人们更好地理解和评估论证,从而做出更明智的决策。未来,可以将该方法推广到其他类型的文本和对话场景中。

📄 摘要(原文)

This study investigates how context and emotional tone metadata influence large language model (LLM) reasoning and performance in fallacy classification tasks, particularly within political debate settings. Using data from U.S. presidential debates, we classify six fallacy types through various prompting strategies applied to the Qwen-3 (8B) model. We introduce two theoretically grounded Chain-of-Thought frameworks: Pragma-Dialectics and the Periodic Table of Arguments, and evaluate their effectiveness against a baseline prompt under three input settings: text-only, text with context, and text with both context and audio-based emotional tone metadata. Results suggest that while theoretical prompting can improve interpretability and, in some cases, accuracy, the addition of context and especially emotional tone metadata often leads to lowered performance. Emotional tone metadata biases the model toward labeling statements as \textit{Appeal to Emotion}, worsening logical reasoning. Overall, basic prompts often outperformed enhanced ones, suggesting that attention dilution from added inputs may worsen rather than improve fallacy classification in LLMs.