AR-BENCH: Benchmarking Legal Reasoning with Judgment Error Detection, Classification and Correction
作者: Yifei Li, Richong Zhang, Wanyu Tu, Zhijie Nie, Haokun Luo, Chuantao Yin, Pengchong Li
分类: cs.CL
发布日期: 2026-01-30
💡 一句话要点
AR-BENCH:提出法律判决错误检测、分类与纠正的评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律人工智能 判决复审 错误检测 异常检测 大型语言模型 AR-BENCH 法律适用错误
📋 核心要点
- 现有法律AI研究侧重于判决预测和法律文件生成,忽略了判决复审中错误检测、分类和纠正这一关键任务。
- 论文提出APPELLATE REVIEW任务,旨在评估模型在法律实践中的诊断推理能力,并构建了包含8700个判决的AR-BENCH数据集。
- 通过对14个大型语言模型的评估,揭示了现有模型在识别法律适用错误方面的不足,为后续研究提供了改进方向。
📝 摘要(中文)
法律判决由于案情复杂和法律概念抽象,可能包含错误。现有的上诉复审机制面临案件量激增带来的效率压力。当前法律人工智能研究主要集中在判决预测和法律文件生成等任务上,而判决复审在目标和范式上存在根本差异:它侧重于在判决发布后检测、分类和纠正错误,属于异常检测而非预测或生成。为了弥补这一研究空白,我们引入了一个新的任务APPELLATE REVIEW,旨在评估模型在法律实践中的诊断推理和可靠性。我们还构建了一个新的数据集基准AR-BENCH,它包含8,700个精细标注的判决和34,617个补充语料。通过评估14个大型语言模型,我们揭示了现有模型在识别法律适用错误方面的关键局限性,为未来的改进提供了经验证据。
🔬 方法详解
问题定义:论文旨在解决法律判决中存在的错误检测、分类和纠正问题。现有方法主要集中在判决预测,忽略了判决后复审这一重要环节,导致对判决错误的识别能力不足,无法满足日益增长的案件复审需求。
核心思路:论文的核心思路是将判决复审问题定义为异常检测任务,即在已有的判决中识别出存在法律适用错误的案例。通过构建包含错误标注的数据集,并评估现有大型语言模型在该任务上的表现,从而推动相关研究的发展。
技术框架:论文主要包含两个部分:一是提出APPELLATE REVIEW任务,明确了任务的目标和评价指标;二是构建AR-BENCH数据集,为模型训练和评估提供数据支持。数据集包含判决文本、错误类型标注以及纠正建议等信息。
关键创新:论文的关键创新在于首次将法律判决复审问题形式化为异常检测任务,并构建了大规模的标注数据集AR-BENCH。这为法律AI领域的研究开辟了一个新的方向,并为后续模型的设计和评估提供了基准。
关键设计:AR-BENCH数据集包含8,700个精细标注的判决和34,617个补充语料。论文评估了14个大型语言模型,并分析了它们在不同错误类型上的表现。评价指标包括错误检测的准确率、召回率和F1值,以及错误分类的准确率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有大型语言模型在AR-BENCH数据集上的表现仍有较大提升空间,尤其是在识别复杂法律适用错误方面。例如,部分模型在特定错误类型上的F1值低于0.5,表明模型对这些错误的识别能力较弱。这些结果为未来模型改进提供了明确的方向。
🎯 应用场景
该研究成果可应用于智能法律辅助系统,辅助法官或律师进行判决复审,提高复审效率和准确性。通过自动检测和分类判决错误,可以减少人工复审的工作量,并降低因判决错误带来的社会风险。未来,该研究还可扩展到其他法律领域,如合同审查、法律咨询等。
📄 摘要(原文)
Legal judgments may contain errors due to the complexity of case circumstances and the abstract nature of legal concepts, while existing appellate review mechanisms face efficiency pressures from a surge in case volumes. Although current legal AI research focuses on tasks like judgment prediction and legal document generation, the task of judgment review differs fundamentally in its objectives and paradigm: it centers on detecting, classifying, and correcting errors after a judgment is issued, constituting anomaly detection rather than prediction or generation. To address this research gap, we introduce a novel task APPELLATE REVIEW, aiming to assess models' diagnostic reasoning and reliability in legal practice. We also construct a novel dataset benchmark AR-BENCH, which comprises 8,700 finely annotated decisions and 34,617 supplementary corpora. By evaluating 14 large language models, we reveal critical limitations in existing models' ability to identify legal application errors, providing empirical evidence for future improvements.