Assessing Open-Source Large Language Models on Argumentation Mining Subtasks

作者: Mohammad Yeghaneh Abkenar, Weixing Wang, Hendrik Graupner, Manfred Stede

分类: cs.CL

发布日期: 2024-11-08

💡 一句话要点

评估开源大语言模型在论证挖掘子任务上的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 论证挖掘 大语言模型 开源模型 零样本学习 少样本学习

📋 核心要点

现有论证挖掘方法依赖于特定领域的知识和标注数据，缺乏通用性和可迁移性。
利用开源大语言模型强大的语言理解和生成能力，探索其在论证挖掘任务中的潜力。
通过零样本和少样本实验，评估不同开源LLM在论证单元分类和关系分类任务上的性能。

📝 摘要（中文）

本文探讨了四个开源大语言模型（LLMs）在论证挖掘（AM）方面的能力。我们基于两个论证挖掘子任务：（i）论证性话语单元分类（ADUC）和（ii）论证关系分类（ARC），在三个不同的语料库上进行了实验，包括说服性文章（PE）、论证性微文本（AMT）第1部分和第2部分。这项工作旨在评估开源LLMs（包括Mistral 7B、Mixtral8x7B、Llama2 7B和Llama3 8B）在零样本和少样本场景下的论证能力。我们的分析有助于在未来的研究工作中进一步评估使用开源LLMs进行计算论证。

🔬 方法详解

问题定义：论文旨在评估开源大语言模型在论证挖掘任务中的表现。现有方法通常需要大量标注数据和领域知识，泛化能力有限。论文关注论证性话语单元分类（ADUC）和论证关系分类（ARC）这两个核心子任务。

核心思路：论文的核心思路是利用预训练的开源大语言模型，通过零样本或少样本学习的方式，直接进行论证挖掘任务，避免了传统方法中繁琐的特征工程和模型训练过程。这种方法旨在探索LLM的内在论证能力，并评估其在不同数据集上的泛化性能。

技术框架：论文采用了一种直接评估的方法，即直接将论证挖掘任务转化为LLM的文本分类或关系抽取任务。具体流程如下：1) 选择开源LLM（Mistral 7B、Mixtral8x7B、Llama2 7B、Llama3 8B）；2) 构建零样本或少样本的prompt；3) 将prompt输入LLM，得到预测结果；4) 评估预测结果的准确率、精确率、召回率等指标。

关键创新：论文的关键创新在于系统性地评估了多个主流开源LLM在论证挖掘任务上的性能。与以往研究不同，论文侧重于探索LLM的零样本和少样本学习能力，而非针对特定数据集进行优化。这有助于更好地理解LLM的通用论证能力，并为未来的研究提供参考。

关键设计：论文的关键设计包括：1) 选择了三个不同的论证挖掘数据集（PE、AMT Part 1、AMT Part 2），以评估LLM在不同领域的泛化能力；2) 采用了零样本和少样本两种学习范式，以探索LLM在不同数据量下的性能表现；3) 使用了标准的分类指标（如准确率、精确率、召回率）来评估LLM的性能。

📊 实验亮点

实验结果表明，不同的开源LLM在论证挖掘任务上表现出不同的性能。Llama3 8B在大多数数据集和任务上取得了最佳结果，表明其具有较强的论证能力。少样本学习通常优于零样本学习，但提升幅度因模型和数据集而异。实验结果为未来选择合适的LLM进行论证挖掘任务提供了参考。

🎯 应用场景

该研究成果可应用于自动论证分析、智能辩论系统、舆情分析、文本摘要等领域。通过利用大语言模型的论证挖掘能力，可以更有效地理解和分析文本中的论证结构，从而提高信息处理的效率和准确性。未来，该技术有望应用于教育领域，辅助学生提高批判性思维能力。

📄 摘要（原文）

We explore the capability of four open-sourcelarge language models (LLMs) in argumentation mining (AM). We conduct experiments on three different corpora; persuasive essays(PE), argumentative microtexts (AMT) Part 1 and Part 2, based on two argumentation mining sub-tasks: (i) argumentative discourse units classifications (ADUC), and (ii) argumentative relation classification (ARC). This work aims to assess the argumentation capability of open-source LLMs, including Mistral 7B, Mixtral8x7B, LlamA2 7B and LlamA3 8B in both, zero-shot and few-shot scenarios. Our analysis contributes to further assessing computational argumentation with open-source LLMs in future research efforts.

Assessing Open-Source Large Language Models on Argumentation Mining Subtasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理