PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

📄 arXiv: 2601.16669v1 📥 PDF

作者: Yuzhen Shi, Huanghai Liu, Yiran Hu, Gaojie Song, Xinran Xu, Yubo Ma, Tianyi Tang, Li Zhang, Qingjing Chen, Di Feng, Wenbo Lv, Weiheng Wu, Kexin Yang, Sen Yang, Wei Wang, Rongyao Shi, Yuanyang Qiu, Yuemeng Qi, Jingwen Zhang, Xiaoyu Sui, Yifan Chen, Yi Zhang, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Weixing Shen, Bing Zhao, Charles L. A. Clarke, Hu Wei

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-01-23

🔗 代码/项目: GITHUB


💡 一句话要点

PLawBench:一个基于规则的真实法律实践LLM评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律领域 大型语言模型 评估基准 法律推理 真实场景

📋 核心要点

  1. 现有法律基准过于简化,无法反映真实法律实践的复杂性和推理需求,缺乏细粒度评估。
  2. PLawBench通过模拟真实法律工作流程,设计了公共咨询、案例分析和文档生成三个任务类别。
  3. 实验结果表明,现有LLM在PLawBench上表现不佳,表明其细粒度法律推理能力存在显著局限。

📝 摘要(中文)

随着大型语言模型(LLMs)越来越多地应用于法律领域特定任务,评估它们在真实法律实践中执行法律工作的能力至关重要。然而,现有的法律基准依赖于简化和高度标准化的任务,无法捕捉真实法律实践的模糊性、复杂性和推理需求。此外,先前的评估通常采用粗略的、单维度的指标,并且没有明确评估细粒度的法律推理。为了解决这些限制,我们引入了PLawBench,一个旨在评估LLMs在真实法律实践场景中的能力的实用法律基准。PLawBench基于真实的法律工作流程,通过三个任务类别对法律从业人员的核心流程进行建模:公共法律咨询、实践案例分析和法律文件生成。这些任务评估模型识别法律问题和关键事实、执行结构化法律推理以及生成法律上连贯的文件的能力。PLawBench包含13个实际法律场景中的850个问题,每个问题都附有专家设计的评估规则,从而产生大约12,500个用于细粒度评估的规则项。使用与人类专家判断对齐的基于LLM的评估器,我们评估了10个最先进的LLM。实验结果表明,没有一个模型在PLawBench上取得优异的性能,揭示了当前LLM在细粒度法律推理能力方面的重大局限性,并突出了未来法律LLM评估和发展的重要方向。

🔬 方法详解

问题定义:现有法律基准主要存在两个痛点:一是任务过于简化,无法捕捉真实法律实践的复杂性,例如模糊性、多步骤推理等;二是评估指标粗糙,缺乏对细粒度法律推理能力的评估,无法深入了解LLM在法律领域的优势与不足。

核心思路:PLawBench的核心思路是构建一个更贴近真实法律实践的评估基准。通过模拟法律从业人员的实际工作流程,设计更具挑战性和现实意义的任务,并采用细粒度的评估规则,从而更全面、深入地评估LLM的法律推理能力。

技术框架:PLawBench主要包含以下几个关键组成部分: 1. 任务设计:设计了三个任务类别,包括公共法律咨询、实践案例分析和法律文件生成,涵盖了法律实践中的核心流程。 2. 数据集构建:收集了13个实际法律场景中的850个问题,每个问题都经过法律专家的精心设计。 3. 评估规则:为每个问题设计了专家评估规则,总计约12,500个规则项,用于细粒度地评估LLM的回答。 4. 评估器:使用基于LLM的评估器,该评估器与人类专家的判断对齐,以确保评估的客观性和准确性。

关键创新:PLawBench的关键创新在于其真实性和细粒度。它不是简单地使用现有的法律知识问答数据集,而是模拟了真实的法律实践场景,并设计了相应的任务和评估规则。这种设计使得PLawBench能够更准确地评估LLM在法律领域的实际应用能力。

关键设计:PLawBench的关键设计包括: 1. 任务选择:选择了公共法律咨询、实践案例分析和法律文件生成这三个任务,因为它们代表了法律实践中的核心流程,能够全面评估LLM的法律能力。 2. 评估规则设计:评估规则的设计参考了法律专家的意见,并经过多次迭代和改进,以确保其准确性和有效性。 3. LLM评估器:使用了与人类专家判断对齐的LLM评估器,以减少评估偏差,提高评估的客观性。

📊 实验亮点

实验结果显示,即使是最先进的LLM在PLawBench上的表现也远未达到理想水平,表明当前LLM在细粒度法律推理方面存在显著局限。例如,在某些任务上,LLM的准确率仅为个位数。这突显了未来法律LLM研究的重点方向,即如何提高LLM在复杂法律场景下的推理能力和准确性。

🎯 应用场景

PLawBench可用于评估和改进LLM在法律领域的应用,例如智能法律咨询、案件分析辅助、法律文书自动生成等。通过该基准,可以推动LLM在法律领域的更广泛应用,提高法律服务的效率和质量,并为法律从业人员提供更强大的辅助工具。未来,该基准可以扩展到更多法律领域和任务,进一步提升LLM在法律领域的智能化水平。

📄 摘要(原文)

As large language models (LLMs) are increasingly applied to legal domain-specific tasks, evaluating their ability to perform legal work in real-world settings has become essential. However, existing legal benchmarks rely on simplified and highly standardized tasks, failing to capture the ambiguity, complexity, and reasoning demands of real legal practice. Moreover, prior evaluations often adopt coarse, single-dimensional metrics and do not explicitly assess fine-grained legal reasoning. To address these limitations, we introduce PLawBench, a Practical Law Benchmark designed to evaluate LLMs in realistic legal practice scenarios. Grounded in real-world legal workflows, PLawBench models the core processes of legal practitioners through three task categories: public legal consultation, practical case analysis, and legal document generation. These tasks assess a model's ability to identify legal issues and key facts, perform structured legal reasoning, and generate legally coherent documents. PLawBench comprises 850 questions across 13 practical legal scenarios, with each question accompanied by expert-designed evaluation rubrics, resulting in approximately 12,500 rubric items for fine-grained assessment. Using an LLM-based evaluator aligned with human expert judgments, we evaluate 10 state-of-the-art LLMs. Experimental results show that none achieves strong performance on PLawBench, revealing substantial limitations in the fine-grained legal reasoning capabilities of current LLMs and highlighting important directions for future evaluation and development of legal LLMs. Data is available at: https://github.com/skylenage/PLawbench.