Legal Mathematical Reasoning with LLMs: Procedural Alignment through Two-Stage Reinforcement Learning

📄 arXiv: 2504.02590v2 📥 PDF

作者: Kepu Zhang, Guofu Xie, Weijie Yu, Mingyue Xu, Xu Tang, Yaxin Li, Jun Xu

分类: cs.CL

发布日期: 2025-04-03 (更新: 2025-06-07)


💡 一句话要点

提出LexPam框架以解决法律数学推理中的程序一致性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律数学推理 强化学习 课程学习 法律语言模型 程序一致性 模型微调 群体相对策略优化

📋 核心要点

  1. 现有法律语言模型在结构化数值推理方面存在不足,无法满足高风险法律场景的需求。
  2. 提出LexPam框架,通过两阶段强化学习和课程学习,提升法律推理的准确性和程序一致性。
  3. 实验结果显示,LexPam在LexNum基准上显著提升了模型的数学准确性和法律一致性。

📝 摘要(中文)

法律数学推理在高风险法律环境中至关重要,要求输出既要数学准确又要程序合规。然而,现有法律语言模型在结构化数值推理方面存在不足,开放域模型虽然能进行计算,但常常忽视必要的法律步骤。为此,本文提出LexNum,这是第一个涵盖三种代表性场景的中文法律数学推理基准,反映法律程序流程。我们进一步提出LexPam,一个两阶段强化学习框架,用于高效的法律推理训练。通过课程学习,我们使用更强的教师模型将数据划分为基础和挑战性子集,轻量级的1.5B学生模型通过群体相对策略优化进行微调,避免了昂贵的价值网络,并实现了从稀疏的序列结束奖励中稳定训练。实验表明,现有模型在LexNum上表现不佳,而LexPam则提升了数学准确性和法律一致性,并在任务和领域间有效泛化。

🔬 方法详解

问题定义:本文旨在解决现有法律语言模型在法律数学推理中的程序一致性和数学准确性不足的问题。现有模型在处理法律程序时常常忽视必要的步骤,导致输出不符合法律要求。

核心思路:论文提出LexPam框架,通过两阶段强化学习方法,结合课程学习策略,提升模型在法律推理中的表现。首先使用强教师模型对数据进行划分,确保学生模型在不同难度的任务上进行有效训练。

技术框架:LexPam框架分为两个主要阶段:第一阶段专注于提升模型的数学准确性和输出格式,第二阶段引入新的奖励机制,指导模型在特定法律任务中实现程序一致性。

关键创新:最重要的创新在于引入了两阶段强化学习和课程学习的结合,特别是通过群体相对策略优化来避免传统方法中的价值网络成本,确保训练的稳定性。

关键设计:在模型设计上,采用了轻量级的1.5B参数学生模型,并通过特定的损失函数和奖励机制来优化模型的学习过程,确保其在法律推理任务中的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LexPam在LexNum基准上显著优于现有模型,提升了数学准确性和法律一致性。具体而言,LexPam在多个任务上实现了超过20%的性能提升,展示了其在法律推理领域的有效性和广泛适用性。

🎯 应用场景

该研究的潜在应用领域包括法律文书自动生成、法律咨询机器人以及法律教育等。通过提升法律数学推理的准确性和一致性,LexPam框架能够为法律实践提供更可靠的支持,降低法律风险,提升工作效率,未来可能在法律科技领域产生深远影响。

📄 摘要(原文)

Legal mathematical reasoning is essential for applying large language models (LLMs) in high-stakes legal contexts, where outputs must be both mathematically accurate and procedurally compliant. However, existing legal LLMs lack structured numerical reasoning, and open-domain models, though capable of calculations, often overlook mandatory legal steps. To address this, we present LexNum, the first Chinese legal mathematical reasoning benchmark, covering three representative scenarios where each instance reflects legally grounded procedural flows. We further propose LexPam, a two-stage reinforcement learning framework for efficient legal reasoning training. Leveraging curriculum learning, we use a stronger teacher model to partition data into basic and challenging subsets. A lightweight 1.5B student model is then fine-tuned with Group Relative Policy Optimization, which avoids costly value networks and enables stable training from sparse, end-of-sequence rewards. The first stage improves accuracy and format; the second introduces a novel reward to guide procedural alignment via task-specific legal elements. Experiments show that existing models perform poorly on LexNum, while LexPam enhances both mathematical accuracy and legal coherence, and generalizes effectively across tasks and domains.