Assessing Open-Source Large Language Models on Argumentation Mining Subtasks
作者: Mohammad Yeghaneh Abkenar, Weixing Wang, Hendrik Graupner, Manfred Stede
分类: cs.CL
发布日期: 2024-11-08
💡 一句话要点
评估开源大语言模型在论证挖掘子任务上的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 论证挖掘 大语言模型 开源模型 零样本学习 少样本学习
📋 核心要点
- 现有论证挖掘方法依赖于特定领域的知识和标注数据,缺乏通用性和可迁移性。
- 利用开源大语言模型强大的语言理解和生成能力,探索其在论证挖掘任务中的潜力。
- 通过零样本和少样本实验,评估不同开源LLM在论证单元分类和关系分类任务上的性能。
📝 摘要(中文)
本文探讨了四个开源大语言模型(LLMs)在论证挖掘(AM)方面的能力。我们基于两个论证挖掘子任务:(i)论证性话语单元分类(ADUC)和(ii)论证关系分类(ARC),在三个不同的语料库上进行了实验,包括说服性文章(PE)、论证性微文本(AMT)第1部分和第2部分。这项工作旨在评估开源LLMs(包括Mistral 7B、Mixtral8x7B、Llama2 7B和Llama3 8B)在零样本和少样本场景下的论证能力。我们的分析有助于在未来的研究工作中进一步评估使用开源LLMs进行计算论证。
🔬 方法详解
问题定义:论文旨在评估开源大语言模型在论证挖掘任务中的表现。现有方法通常需要大量标注数据和领域知识,泛化能力有限。论文关注论证性话语单元分类(ADUC)和论证关系分类(ARC)这两个核心子任务。
核心思路:论文的核心思路是利用预训练的开源大语言模型,通过零样本或少样本学习的方式,直接进行论证挖掘任务,避免了传统方法中繁琐的特征工程和模型训练过程。这种方法旨在探索LLM的内在论证能力,并评估其在不同数据集上的泛化性能。
技术框架:论文采用了一种直接评估的方法,即直接将论证挖掘任务转化为LLM的文本分类或关系抽取任务。具体流程如下:1) 选择开源LLM(Mistral 7B、Mixtral8x7B、Llama2 7B、Llama3 8B);2) 构建零样本或少样本的prompt;3) 将prompt输入LLM,得到预测结果;4) 评估预测结果的准确率、精确率、召回率等指标。
关键创新:论文的关键创新在于系统性地评估了多个主流开源LLM在论证挖掘任务上的性能。与以往研究不同,论文侧重于探索LLM的零样本和少样本学习能力,而非针对特定数据集进行优化。这有助于更好地理解LLM的通用论证能力,并为未来的研究提供参考。
关键设计:论文的关键设计包括:1) 选择了三个不同的论证挖掘数据集(PE、AMT Part 1、AMT Part 2),以评估LLM在不同领域的泛化能力;2) 采用了零样本和少样本两种学习范式,以探索LLM在不同数据量下的性能表现;3) 使用了标准的分类指标(如准确率、精确率、召回率)来评估LLM的性能。
📊 实验亮点
实验结果表明,不同的开源LLM在论证挖掘任务上表现出不同的性能。Llama3 8B在大多数数据集和任务上取得了最佳结果,表明其具有较强的论证能力。少样本学习通常优于零样本学习,但提升幅度因模型和数据集而异。实验结果为未来选择合适的LLM进行论证挖掘任务提供了参考。
🎯 应用场景
该研究成果可应用于自动论证分析、智能辩论系统、舆情分析、文本摘要等领域。通过利用大语言模型的论证挖掘能力,可以更有效地理解和分析文本中的论证结构,从而提高信息处理的效率和准确性。未来,该技术有望应用于教育领域,辅助学生提高批判性思维能力。
📄 摘要(原文)
We explore the capability of four open-sourcelarge language models (LLMs) in argumentation mining (AM). We conduct experiments on three different corpora; persuasive essays(PE), argumentative microtexts (AMT) Part 1 and Part 2, based on two argumentation mining sub-tasks: (i) argumentative discourse units classifications (ADUC), and (ii) argumentative relation classification (ARC). This work aims to assess the argumentation capability of open-source LLMs, including Mistral 7B, Mixtral8x7B, LlamA2 7B and LlamA3 8B in both, zero-shot and few-shot scenarios. Our analysis contributes to further assessing computational argumentation with open-source LLMs in future research efforts.