Archimedes-AUEB at SemEval-2024 Task 5: LLM explains Civil Procedure

📄 arXiv: 2405.08502v1 📥 PDF

作者: Odysseas S. Chlapanis, Ion Androutsopoulos, Dimitrios Galanis

分类: cs.CL

发布日期: 2024-05-14

备注: To be published in SemEval-2024


💡 一句话要点

利用LLM解释民事诉讼,提出基于人类分析的知识蒸馏与数据增强方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 民事诉讼 大型语言模型 知识蒸馏 数据增强 可解释性 法律人工智能 人类分析

📋 核心要点

  1. 现有法律领域LLM主要用于分类,推理依据受质疑,缺乏可信的解释。
  2. 利用教师LLM生成解释性数据,并结合人类分析,增强学生LLM的推理能力。
  3. 实验结果表明,该方法优于教师模型,并能生成与人类分析一致的解释。

📝 摘要(中文)

本文介绍了Archimedes-AUEB团队在SemEval-2024 Task 5上的工作,该任务旨在理解法律概念并推断复杂的民事诉讼论证。现有的大型语言模型(LLM)在法律领域主要用于分类任务,其推理依据存在争议。本文提出了一种方法,使用强大的教师LLM(ChatGPT)通过解释和生成合成数据来扩展训练数据集。然后,利用生成的数据对小型学生LLM进行微调。与以往工作不同,本文的解释并非直接来自教师的内部知识,而是基于真实的人类分析,从而提供更优越的推理信号。此外,一种新的“突变”方法从现有实例中生成人工数据。该团队公开发布了解释作为原始数据集的扩展,以及合成数据集和用于生成两者的提示。该系统在SemEval竞赛中排名第15位,优于其自身的教师,并且可以生成与原始人类分析一致的解释,这已通过法律专家的验证。

🔬 方法详解

问题定义:该论文旨在解决民事诉讼论证推理中,现有大型语言模型(LLM)缺乏可解释性的问题。现有方法主要依赖LLM自身的内部知识进行推理,但这些知识来源不明,推理过程难以验证,导致结果的可信度较低。此外,现有方法通常侧重于分类任务,难以提供对法律概念和论证过程的深入理解。

核心思路:论文的核心思路是利用教师LLM生成解释性数据,并结合真实的人类分析,从而增强学生LLM的推理能力和可解释性。通过将人类专家的知识融入到训练数据中,可以使学生LLM学习到更可靠、更符合法律逻辑的推理模式。此外,通过生成合成数据,可以扩充训练集,提高模型的泛化能力。

技术框架:整体框架包括以下几个主要阶段:1) 使用教师LLM(ChatGPT)生成解释性数据,这些解释基于真实的人类分析而非LLM自身的内部知识。2) 使用“突变”方法生成合成数据,该方法通过对现有数据进行微小修改来创建新的训练样本。3) 使用生成的数据集对小型学生LLM进行微调。4) 评估学生LLM的性能,并与教师LLM和其他基线模型进行比较。

关键创新:最重要的技术创新点在于使用基于人类分析的解释性数据来训练LLM。与以往直接使用LLM内部知识的方法不同,该方法能够提供更可靠、更可信的推理依据。此外,“突变”数据增强方法也是一个创新点,它可以有效地扩充训练数据集,提高模型的鲁棒性。

关键设计:论文的关键设计包括:1) 精心设计的提示(prompts),用于引导教师LLM生成高质量的解释性数据。2) “突变”方法的具体实现,包括如何选择和修改现有数据样本。3) 学生LLM的微调策略,包括学习率、batch size等超参数的设置。论文还强调了法律专家的参与,以验证生成的解释是否符合法律逻辑。

📊 实验亮点

该系统在SemEval竞赛中排名第15位,并且优于其自身的教师模型(ChatGPT)。更重要的是,法律专家验证了该系统生成的解释与原始人类分析高度一致,表明该方法能够有效地提高LLM在法律领域的推理能力和可解释性。

🎯 应用场景

该研究成果可应用于法律咨询、智能辅助判案、法律教育等领域。通过提供可解释的推理过程,可以提高法律决策的透明度和公正性。未来,该方法可以扩展到其他需要复杂推理和解释的领域,例如医疗诊断、金融风险评估等。

📄 摘要(原文)

The SemEval task on Argument Reasoning in Civil Procedure is challenging in that it requires understanding legal concepts and inferring complex arguments. Currently, most Large Language Models (LLM) excelling in the legal realm are principally purposed for classification tasks, hence their reasoning rationale is subject to contention. The approach we advocate involves using a powerful teacher-LLM (ChatGPT) to extend the training dataset with explanations and generate synthetic data. The resulting data are then leveraged to fine-tune a small student-LLM. Contrary to previous work, our explanations are not directly derived from the teacher's internal knowledge. Instead they are grounded in authentic human analyses, therefore delivering a superior reasoning signal. Additionally, a new `mutation' method generates artificial data instances inspired from existing ones. We are publicly releasing the explanations as an extension to the original dataset, along with the synthetic dataset and the prompts that were used to generate both. Our system ranked 15th in the SemEval competition. It outperforms its own teacher and can produce explanations aligned with the original human analyses, as verified by legal experts.