Evaluating the Limits of Large Language Models in Multilingual Legal Reasoning
作者: Antreas Ioannou, Andreas Shiamishis, Nora Hollenstein, Nezihe Merve Gürel
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-09-26
备注: 39 pages, 36 figures. Code and evaluation pipeline available at https://github.com/RobustML-Lab/Legal-Multilingual-Evaluation-of-LLMs
💡 一句话要点
评估大语言模型在多语言法律推理中的局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 法律推理 多语言 对抗鲁棒性 基准测试
📋 核心要点
- 现有大语言模型在多语言、跨司法管辖区的法律推理任务中表现不足,缺乏充分的评估。
- 论文提出一个开源、模块化的评估流程,用于多语言、任务多样的法律基准测试,并采用LLM-as-a-Judge方法。
- 实验表明,法律任务对LLM构成挑战,且模型性能与语言的句法相似性相关,Gemini优于LLaMA。
📝 摘要(中文)
在大语言模型(LLM)主导的时代,理解它们的能力和局限性至关重要,尤其是在法律等高风险领域。尽管Meta的LLaMA、OpenAI的ChatGPT、Google的Gemini、DeepSeek以及其他新兴模型正日益融入法律工作流程,但它们在多语言、跨司法管辖区和对抗性环境中的表现仍未得到充分探索。本研究评估了LLaMA和Gemini在多语言法律和非法律基准上的表现,并通过字符和词级别的扰动评估了它们在法律任务中的对抗鲁棒性。我们使用LLM-as-a-Judge方法进行与人类对齐的评估。此外,我们提出了一个开源的、模块化的评估流程,旨在支持对任意LLM和数据集的多语言、任务多样性基准测试,特别关注法律任务,包括分类、总结、开放性问题和一般推理。我们的研究结果证实,法律任务对LLM提出了重大挑战,在LEXam等法律推理基准上的准确率通常低于50%,而通用任务(如XNLI)上的准确率则超过70%。此外,虽然英语通常产生更稳定的结果,但并不总是能带来更高的准确率。提示敏感性和对抗脆弱性也持续存在于各种语言中。最后,我们发现了一种语言的性能与其与英语的句法相似性之间存在相关性。我们还观察到LLaMA比Gemini弱,后者在同一任务上的平均优势约为24个百分点。尽管较新的LLM有所改进,但在关键的多语言法律应用中可靠地部署它们仍然存在挑战。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在多语言法律推理任务中的能力和局限性。现有方法缺乏对LLM在多语言、跨司法管辖区和对抗性法律环境下的全面评估,并且在法律任务上的表现远低于通用任务,存在准确率低、提示敏感和对抗脆弱等问题。
核心思路:论文的核心思路是构建一个多语言法律推理评估框架,通过一系列法律和非法律基准测试,以及对抗性攻击,系统地评估LLM在不同语言和场景下的性能。同时,采用LLM-as-a-Judge方法,以更符合人类判断的方式评估模型输出。
技术框架:该研究的技术框架主要包括以下几个模块:1) 多语言法律和非法律基准数据集的构建和选择;2) LLaMA和Gemini等LLM的部署和测试;3) 基于字符和词级别扰动的对抗性攻击;4) LLM-as-a-Judge的评估方法;5) 开源、模块化的评估流程的构建。整个流程旨在支持对任意LLM和数据集的多语言、任务多样性基准测试。
关键创新:论文的关键创新在于:1) 提出了一个开源、模块化的多语言法律推理评估框架,可以灵活地评估不同LLM在各种法律任务上的表现;2) 采用了LLM-as-a-Judge方法,以更符合人类判断的方式评估模型输出;3) 系统地研究了LLM在对抗性法律环境下的鲁棒性,揭示了其在字符和词级别扰动下的脆弱性。
关键设计:论文的关键设计包括:1) 选择了LEXam等法律推理基准,以及XNLI等通用任务基准,以对比LLM在不同类型任务上的表现;2) 设计了字符和词级别的对抗性攻击,以评估LLM的鲁棒性;3) 使用了BLEU、ROUGE等指标,以及LLM-as-a-Judge的评估结果,综合评估模型性能;4) 评估了多种语言,并分析了语言的句法相似性与模型性能之间的关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在法律任务上的准确率通常低于50%,远低于通用任务的70%。英语虽然通常产生更稳定的结果,但并不总是能带来更高的准确率。Gemini在相同任务上的平均优势约为24个百分点,优于LLaMA。研究还发现,语言的句法相似性与模型性能之间存在相关性。
🎯 应用场景
该研究成果可应用于法律人工智能领域,帮助律师、法务人员等评估和选择合适的LLM,辅助法律咨询、合同审查、案例分析等工作。同时,该研究也为LLM的进一步优化和改进提供了指导,使其在法律领域的应用更加可靠和安全。
📄 摘要(原文)
In an era dominated by Large Language Models (LLMs), understanding their capabilities and limitations, especially in high-stakes fields like law, is crucial. While LLMs such as Meta's LLaMA, OpenAI's ChatGPT, Google's Gemini, DeepSeek, and other emerging models are increasingly integrated into legal workflows, their performance in multilingual, jurisdictionally diverse, and adversarial contexts remains insufficiently explored. This work evaluates LLaMA and Gemini on multilingual legal and non-legal benchmarks, and assesses their adversarial robustness in legal tasks through character and word-level perturbations. We use an LLM-as-a-Judge approach for human-aligned evaluation. We moreover present an open-source, modular evaluation pipeline designed to support multilingual, task-diverse benchmarking of any combination of LLMs and datasets, with a particular focus on legal tasks, including classification, summarization, open questions, and general reasoning. Our findings confirm that legal tasks pose significant challenges for LLMs with accuracies often below 50% on legal reasoning benchmarks such as LEXam, compared to over 70% on general-purpose tasks like XNLI. In addition, while English generally yields more stable results, it does not always lead to higher accuracy. Prompt sensitivity and adversarial vulnerability is also shown to persist across languages. Finally, a correlation is found between the performance of a language and its syntactic similarity to English. We also observe that LLaMA is weaker than Gemini, with the latter showing an average advantage of about 24 percentage points across the same task. Despite improvements in newer LLMs, challenges remain in deploying them reliably for critical, multilingual legal applications.