LexRubric: A Rubric-Guided Diagnostic Benchmark for Open-Ended Legal Tasks
作者: Yifan Chen, Haitao Li, Yiran Hu, Kaisong Song, Jun Lin, Yueyue Wu, Qingyao Ai, Min Zhang, Yiqun Liu
分类: cs.CL
发布日期: 2026-06-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出LexRubric以解决开放式法律任务评估问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律任务评估 大型语言模型 评分标准 诊断评估 开放式问题
📋 核心要点
- 现有方法在评估开放式法律任务时缺乏细致的诊断能力,难以识别具体的响应质量问题。
- LexRubric通过建立一个基于评分标准的评估框架,提供了649个法律任务实例和12,337个评分标准,旨在实现精确的评估。
- 实验结果表明,不同的LLMs在开放式法律问题上的表现差异明显,且当前模型在此类任务上仍面临挑战。
📝 摘要(中文)
随着大型语言模型(LLMs)在实际法律任务中的应用日益增加,评估其开放式法律响应的可靠性变得至关重要。这些任务需要上下文敏感的答案,容错空间极小,因此需要细致的诊断评估,以识别响应质量失败的具体来源。本文介绍了LexRubric,一个用于评估开放式中文法律任务的基于评分标准的基准。LexRubric包含来自法律咨询和司法考试的649个实例,涵盖14种法律场景,并包含12,337个专家撰写的原子评分标准,组织在统一的六维框架下,能够实现跨任务和评估维度的准确评估和诊断分析。我们还测试了多个评审模型,并将模型判断与人工判断进行了比较,结果显示不同模型展现出不同的能力特征,开放式法律问题对当前LLMs仍然具有挑战性。
🔬 方法详解
问题定义:本文旨在解决开放式法律任务评估中的可靠性问题,现有方法无法有效识别响应质量的具体缺陷,导致评估结果不够准确。
核心思路:LexRubric通过构建一个包含丰富实例和评分标准的评估框架,提供了细致的诊断能力,帮助识别和分析模型在法律任务中的表现。
技术框架:LexRubric的整体架构包括法律任务实例库、评分标准库和评估模型。法律任务实例库包含649个实例,评分标准库则提供12,337个评分标准,评估模型用于对比人类评审和模型评审的结果。
关键创新:LexRubric的主要创新在于其六维评分框架和丰富的原子评分标准,这与现有的评估方法相比,提供了更为细致和系统的评估方式。
关键设计:在设计中,评分标准被组织为六个维度,确保评估的全面性和准确性。每个维度下的原子评分标准均由法律专家撰写,以保证其专业性和适用性。实验中还采用了多种评审模型进行对比分析。
🖼️ 关键图片
📊 实验亮点
实验结果显示,不同的LLMs在LexRubric基准上的表现差异明显,某些模型在特定法律任务上表现优于其他模型,揭示了开放式法律问题的复杂性和当前模型的局限性。这一发现为未来的模型改进提供了重要的参考依据。
🎯 应用场景
LexRubric的研究成果可广泛应用于法律领域的自动化评估系统,帮助法律从业者和研究人员更好地理解和评估大型语言模型在法律任务中的表现。未来,该基准可能推动法律智能助手的发展,提高法律服务的效率和准确性。
📄 摘要(原文)
As large language models (LLMs) are increasingly applied to real-world legal tasks, evaluating the reliability of their open-ended legal responses has become essential. These tasks require context-sensitive answers and allow little room for error, motivating fine-grained and diagnostic evaluation that can identify specific sources of response quality failures. We introduce LexRubric, a rubric-based benchmark for evaluating open-ended Chinese legal tasks. LexRubric contains 649 instances from legal consultation and judicial examination, which reflect both everyday legal needs and professional legal reasoning and cover 14 legal scenarios. It further includes 12,337 expert-written atomic scoring criteria organized under a unified six-dimensional framework, enabling accurate evaluation and diagnostic analysis across tasks and evaluation dimensions. To validate the reliability of the evaluation, we test multiple judge models and compare model-based judgments with human judgments. We further evaluate 18 recent general and legal-domain LLMs on LexRubric. Results show that different models exhibit distinct capability profiles, and that open-ended legal question remains challenging for current LLMs. Data is available at: https://github.com/foggpoy/LexRubric.