Are LLMs Court-Ready? Evaluating Frontier Models on Indian Legal Reasoning

📄 arXiv: 2510.17900v1 📥 PDF

作者: Kush Juvekar, Arghya Bhattacharya, Sai Khadloya, Utkarsh Saxena

分类: cs.CY, cs.AI, cs.CL

发布日期: 2025-10-19


💡 一句话要点

构建印度法律推理基准,评估LLM在法律领域的适用性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 法律推理 印度法律 基准评估 自然语言处理

📋 核心要点

  1. 现有LLM在法律领域应用缺乏针对特定司法管辖区的评估框架,无法准确衡量其法律推理能力。
  2. 构建印度法律考试基准,包含客观题和律师评分的长篇问答,模拟真实考试环境评估LLM。
  3. 实验表明,前沿LLM在客观题上表现出色,但在长篇推理和法律文书规范性方面仍不如人类专家。

📝 摘要(中文)

大型语言模型(LLM)正逐渐进入法律工作流程,但我们缺乏针对特定司法管辖区的框架来评估它们在该领域的基本能力。本文使用印度公开的法律考试作为透明的代理。构建了一个多年的基准,汇集了来自顶级国家和州考试的客观筛选,并在真实的考试条件下评估开放和前沿的LLM。为了深入研究多项选择题之外的内容,还包括一项律师评分、双盲配对的最高法院Advocate-on-Record考试的长篇答案研究。据我们所知,这是第一个以考试为基础、针对印度的LLM法庭准备情况的衡量标准,并发布了数据集和协议。研究表明,虽然前沿系统始终能通过历史及格线,并且在客观考试中通常能达到或超过最近的最高分段,但在长篇推理方面,没有一个能超过人类的最高分。评分员的笔记集中在三个可靠性失效模式上:程序或格式合规性、权威或引文纪律以及适合论坛的声音和结构。这些发现界定了LLM可以提供帮助的方面(检查、跨法规一致性、法规和先例查找)以及人类领导仍然至关重要的方面:特定论坛的起草和提交、程序和救济策略、调和权威和例外情况以及道德、负责任的判断。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在印度法律推理方面的能力,并确定它们在多大程度上可以应用于实际的法律工作流程。现有方法缺乏针对特定司法管辖区的评估标准,无法准确衡量LLM在法律领域的适用性,尤其是在长篇推理和法律文书规范性方面。

核心思路:论文的核心思路是利用印度公开的法律考试作为评估LLM法律推理能力的代理。通过模拟真实的考试环境,包括客观题和律师评分的长篇问答,来评估LLM在法律知识、推理能力和文书规范性方面的表现。这种方法能够更全面地了解LLM在法律领域的优势和局限性。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集构建:收集印度顶级国家和州法律考试的客观题和最高法院Advocate-on-Record考试的长篇答案。2) 模型评估:在客观题上直接评估LLM的准确率,在长篇答案上进行律师评分的双盲配对研究。3) 结果分析:分析LLM在不同类型题目上的表现,并总结其在法律推理方面的优势和不足。

关键创新:该研究的关键创新在于:1) 构建了第一个以考试为基础、针对印度的LLM法庭准备情况的衡量标准,并发布了数据集和协议。2) 采用律师评分的双盲配对研究来评估LLM在长篇推理方面的能力,弥补了现有评估方法的不足。3) 识别了LLM在法律推理方面的三个可靠性失效模式:程序或格式合规性、权威或引文纪律以及适合论坛的声音和结构。

关键设计:在长篇答案评估中,采用了律师评分的双盲配对研究,以确保评估的客观性和公正性。评分标准主要包括程序或格式合规性、权威或引文纪律以及适合论坛的声音和结构。此外,还分析了LLM在不同类型题目上的表现,以更全面地了解其在法律推理方面的优势和不足。

📊 实验亮点

实验结果表明,前沿LLM在客观题上表现出色,能够通过历史及格线,并且通常能达到或超过最近的最高分段。然而,在长篇推理方面,没有一个LLM能够超过人类的最高分。律师评分员的笔记集中在三个可靠性失效模式上:程序或格式合规性、权威或引文纪律以及适合论坛的声音和结构。

🎯 应用场景

该研究成果可应用于评估和改进LLM在法律领域的应用,例如辅助法律研究、合同审查、法律文书起草等。通过了解LLM在法律推理方面的优势和局限性,可以更好地将其应用于法律工作流程,提高法律工作的效率和质量。未来,可以进一步研究如何提高LLM在长篇推理和法律文书规范性方面的能力。

📄 摘要(原文)

Large language models (LLMs) are entering legal workflows, yet we lack a jurisdiction-specific framework to assess their baseline competence therein. We use India's public legal examinations as a transparent proxy. Our multi-year benchmark assembles objective screens from top national and state exams and evaluates open and frontier LLMs under real-world exam conditions. To probe beyond multiple-choice questions, we also include a lawyer-graded, paired-blinded study of long-form answers from the Supreme Court's Advocate-on-Record exam. This is, to our knowledge, the first exam-grounded, India-specific yardstick for LLM court-readiness released with datasets and protocols. Our work shows that while frontier systems consistently clear historical cutoffs and often match or exceed recent top-scorer bands on objective exams, none surpasses the human topper on long-form reasoning. Grader notes converge on three reliability failure modes: procedural or format compliance, authority or citation discipline, and forum-appropriate voice and structure. These findings delineate where LLMs can assist (checks, cross-statute consistency, statute and precedent lookups) and where human leadership remains essential: forum-specific drafting and filing, procedural and relief strategy, reconciling authorities and exceptions, and ethical, accountable judgment.