A comprehensive study of LLM-based argument classification: from LLAMA through GPT-4o to Deepseek-R1
作者: Marcin Pietroń, Rafał Olszowski, Jakub Gomułka, Filip Gampel, Andrzej Tomski
分类: cs.CL, cs.AI
发布日期: 2025-07-11 (更新: 2025-07-24)
💡 一句话要点
对比LLAMA到GPT-4o等LLM在论证分类任务上的性能,发现GPT-4o和Deepseek-R1表现优异但仍有改进空间。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 论证挖掘 大型语言模型 论证分类 思维链 GPT-4o Deepseek-R1 自然语言处理 提示工程
📋 核心要点
- 现有论证挖掘方法在处理复杂论证结构和语义时效率较低,且缺乏对大型语言模型在论证分类任务上的系统性评估。
- 该研究通过对比多种LLM在论证分类数据集上的表现,分析其优势与不足,并探索思维链等推理增强方法的效果。
- 实验结果表明,GPT-4o和Deepseek-R1在论证分类任务中表现突出,但仍存在改进空间,并指出了现有提示算法的局限性。
📝 摘要(中文)
论证挖掘(AM)是一个跨学科研究领域,它整合了逻辑学、哲学、语言学、修辞学、法学、心理学和计算机科学的见解。它涉及自动识别和提取论证成分,例如前提和主张,以及检测它们之间的关系,例如支持、攻击或中立。最近,该领域取得了显著进展,特别是随着大型语言模型(LLM)的出现,与传统方法和其他深度学习模型相比,LLM提高了分析和提取论证语义的效率。虽然有很多基准用于测试和验证LLM的质量,但仍然缺乏关于这些模型在公开可用的论证分类数据库中运行的研究和结果。本文研究了一系列LLM,使用了Args.me和UKP等不同的数据集。测试的模型包括GPT、Llama和DeepSeek的版本,以及结合了思维链算法的推理增强变体。结果表明,ChatGPT-4o在论证分类基准测试中优于其他模型。在使用推理能力的模型中,Deepseek-R1表现出优越性。然而,尽管它们具有优越性,GPT-4o和Deepseek-R1仍然会犯错误。讨论了所有模型中最常见的错误。据我们所知,目前的工作是使用LLM和提示算法对上述数据集进行的首次更广泛的分析。该工作还展示了已知提示算法在论证分析中的一些弱点,同时指出了改进方向。这项工作的附加价值是对可用论证数据集的深入分析,并展示了它们的缺点。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在论证分类任务中的性能评估问题。现有方法缺乏对LLM在公开论证数据集上的系统性研究,无法充分了解LLM在处理复杂论证结构和语义时的能力。此外,现有提示算法在论证分析中存在局限性,需要进一步改进。
核心思路:论文的核心思路是通过对比多种LLM(包括GPT、Llama和DeepSeek系列)在不同论证分类数据集上的表现,分析它们的优势和不足。同时,研究结合思维链(Chain-of-Thoughts)等推理增强方法对LLM性能的影响,从而更全面地评估LLM在论证分类任务中的能力。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的论证分类数据集,如Args.me和UKP;2) 选择待评估的LLM,包括GPT、Llama和DeepSeek系列的不同版本;3) 设计合适的提示(Prompt)策略,包括标准提示和结合思维链的提示;4) 使用选定的LLM对数据集中的论证进行分类;5) 分析实验结果,对比不同LLM的性能,并识别常见的错误类型。
关键创新:该研究的关键创新在于:1) 首次对多种LLM在公开论证数据集上的性能进行系统性对比分析;2) 深入分析了LLM在论证分类任务中的常见错误类型,为后续改进提供了方向;3) 评估了思维链等推理增强方法对LLM性能的影响,为提升LLM在论证分析中的能力提供了思路。
关键设计:论文的关键设计包括:1) 数据集选择:选择了具有代表性的Args.me和UKP数据集,以保证评估的全面性;2) 模型选择:选择了不同架构和规模的LLM,以对比不同模型的性能差异;3) 提示设计:设计了标准提示和结合思维链的提示,以评估推理能力对论证分类的影响;4) 评估指标:使用了准确率、精确率、召回率和F1值等指标,以全面评估模型的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ChatGPT-4o在论证分类基准测试中表现优于其他模型,Deepseek-R1在结合推理能力时表现出优越性。然而,即使是GPT-4o和Deepseek-R1仍然会犯错误,研究分析了这些模型中最常见的错误类型,为后续改进提供了方向。
🎯 应用场景
该研究成果可应用于自动论证挖掘、智能辩论系统、舆情分析、法律文本分析等领域。通过提升LLM在论证分类任务中的性能,可以更有效地识别和提取论证信息,从而为决策支持、信息过滤和知识发现提供更准确的基础。
📄 摘要(原文)
Argument mining (AM) is an interdisciplinary research field that integrates insights from logic, philosophy, linguistics, rhetoric, law, psychology, and computer science. It involves the automatic identification and extraction of argumentative components, such as premises and claims, and the detection of relationships between them, such as support, attack, or neutrality. Recently, the field has advanced significantly, especially with the advent of large language models (LLMs), which have enhanced the efficiency of analyzing and extracting argument semantics compared to traditional methods and other deep learning models. There are many benchmarks for testing and verifying the quality of LLM, but there is still a lack of research and results on the operation of these models in publicly available argument classification databases. This paper presents a study of a selection of LLM's, using diverse datasets such as Args.me and UKP. The models tested include versions of GPT, Llama, and DeepSeek, along with reasoning-enhanced variants incorporating the Chain-of-Thoughts algorithm. The results indicate that ChatGPT-4o outperforms the others in the argument classification benchmarks. In case of models incorporated with reasoning capabilities, the Deepseek-R1 shows its superiority. However, despite their superiority, GPT-4o and Deepseek-R1 still make errors. The most common errors are discussed for all models. To our knowledge, the presented work is the first broader analysis of the mentioned datasets using LLM and prompt algorithms. The work also shows some weaknesses of known prompt algorithms in argument analysis, while indicating directions for their improvement. The added value of the work is the in-depth analysis of the available argument datasets and the demonstration of their shortcomings.