LePREC: Reasoning as Classification over Structured Factors for Assessing Relevance of Legal Issues

📄 arXiv: 2604.19464v1 📥 PDF

作者: Fanyu Wang, Xiaoxi Kang, Paul Burgess, Aashish Srivastava, Chetan Arora, Adnan Trakic, Lay-Ki Soon, Md Khalid Hossain, Lizhen Qu

分类: cs.CL, cs.AI

发布日期: 2026-04-21

备注: Accepted by ACL 2026 Main Conference


💡 一句话要点

提出LePREC框架,通过结构化推理提升LLM在法律问题相关性评估中的精度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律问题识别 神经符号推理 大型语言模型 相关性分析 可解释性 法律人工智能 结构化推理

📋 核心要点

  1. 现有大型语言模型在法律领域问题识别任务中,精度不足,难以满足实际需求。
  2. LePREC框架结合神经生成与结构化统计推理,通过分析法律因素的相关性来提升精度。
  3. 实验结果表明,LePREC在法律问题相关性评估上,比先进LLM基线提升了30-40%。

📝 摘要(中文)

由于法律资源有限,全球超过一半的人口难以满足其民事司法需求。大型语言模型(LLM)虽然展现出令人印象深刻的推理能力,但在法律问题识别这一基础步骤上仍然面临重大挑战。为了研究LLM在此任务中的能力,我们构建了一个来自769个真实马来西亚合同法案例的数据集,使用GPT-4o提取事实并生成候选法律问题,由资深法律专家进行标注。结果表明,LLM虽然能生成多样的问题候选,但其精度仍然不足(GPT-4o仅达到62%)。为了解决这个问题,我们提出了LePREC(法律专业人士启发式推理诱导与分类),一个结合神经生成与结构化统计推理的神经符号框架。LePREC包含:(1)一个神经组件,利用LLM将法律描述转换为代表不同分析因素的问答对;(2)一个符号组件,对这些离散特征应用稀疏线性模型,学习显式的代数权重,以识别信息量最大的推理因素。与端到端神经方法不同,LePREC通过透明的特征加权实现可解释性,同时通过基于相关性的统计分类保持数据效率。实验表明,LePREC比包括GPT-4o和Claude在内的先进LLM基线提高了30-40%,证实了基于相关性的因素-问题分析为相关性决策提供了一种更具数据效率的解决方案。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在法律领域中识别相关法律问题时精度不足的问题。现有方法,特别是端到端神经方法,在法律推理任务中表现出局限性,无法充分利用法律知识的结构化特性,导致精度较低,且缺乏可解释性。

核心思路:LePREC的核心思路是将法律推理过程分解为一系列结构化的分析因素,并利用这些因素之间的相关性来判断法律问题的相关性。通过将法律描述转化为问答对,提取关键的法律因素,并使用统计模型学习这些因素对问题相关性的影响权重。这种方法旨在提高精度,同时提供可解释性。

技术框架:LePREC框架包含两个主要组件:神经组件和符号组件。神经组件利用LLM将法律描述转化为问答对,每个问答对代表一个特定的法律分析因素。符号组件则使用稀疏线性模型,对这些离散特征进行加权,学习每个因素对问题相关性的贡献。最终,通过加权求和的方式,判断法律问题的相关性。

关键创新:LePREC的关键创新在于其神经符号结合的框架,以及基于相关性的因素-问题分析方法。与传统的端到端神经方法不同,LePREC显式地建模了法律因素之间的关系,并利用统计模型学习这些关系。这种方法不仅提高了精度,还提供了可解释性,使得用户可以理解模型做出决策的原因。

关键设计:LePREC的关键设计包括:(1) 使用GPT-4o等LLM进行问答对生成,以提取法律因素;(2) 使用稀疏线性模型进行特征加权,以提高模型的可解释性和泛化能力;(3) 基于相关性的统计分类方法,以提高数据效率。具体的参数设置和损失函数选择可能需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LePREC在马来西亚合同法案例数据集上进行了实验,结果表明,LePREC比先进的LLM基线(包括GPT-4o和Claude)提高了30-40%的精度。这一显著的提升表明,基于相关性的因素-问题分析方法在法律问题相关性评估中具有显著优势,并且LePREC框架能够有效地利用法律知识的结构化特性。

🎯 应用场景

LePREC框架可应用于法律咨询、法律检索、智能法律助手等领域。通过提高法律问题识别的精度和效率,LePREC可以帮助律师和普通用户更快地找到相关的法律信息,降低法律服务的成本,并促进司法公正。未来,该框架可以扩展到其他需要结构化推理的领域,如医疗诊断和金融风险评估。

📄 摘要(原文)

More than half of the global population struggles to meet their civil justice needs due to limited legal resources. While Large Language Models (LLMs) have demonstrated impressive reasoning capabilities, significant challenges remain even at the foundational step of legal issue identification. To investigate LLMs' capabilities in this task, we constructed a dataset from 769 real-world Malaysian Contract Act court cases, using GPT-4o to extract facts and generate candidate legal issues, annotated by senior legal experts, which reveals a critical limitation: while LLMs generate diverse issue candidates, their precision remains inadequate (GPT-4o achieves only 62%). To address this gap, we propose LePREC (Legal Professional-inspired Reasoning Elicitation and Classification), a neuro-symbolic framework combining neural generation with structured statistical reasoning. LePREC consists of: (1) a neuro component leverages LLMs to transform legal descriptions into question-answer pairs representing diverse analytical factors, and (2) a symbolic component applies sparse linear models over these discrete features, learning explicit algebraic weights that identify the most informative reasoning factors. Unlike end-to-end neural approaches, LePREC achieves interpretability through transparent feature weighting while maintaining data efficiency through correlation-based statistical classification. Experiments show a 30-40% improvement over advanced LLM baselines, including GPT-4o and Claude, confirming that correlation-based factor-issue analysis offers a more data-efficient solution for relevance decisions.