Unilaw-R1: A Large Language Model for Legal Reasoning with Reinforcement Learning and Iterative Inference
作者: Hua Cai, Shuang Zhao, Liang Zhang, Xuli Shen, Qing Xu, Weilin Shen, Zihao Wen, Tianke Ban
分类: cs.CL
发布日期: 2025-10-11 (更新: 2025-12-08)
💡 一句话要点
提出Unilaw-R1:一个基于强化学习和迭代推理的法律领域大语言模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律推理 大语言模型 强化学习 监督微调 思维链 法律AI 知识蒸馏
📋 核心要点
- 现有大语言模型在复杂法律问题处理上能力不足,面临法律知识匮乏、推理逻辑薄弱和泛化性差等挑战。
- Unilaw-R1通过构建高质量法律数据集,并结合监督微调和强化学习的两阶段训练策略,提升法律推理能力。
- 实验结果表明,Unilaw-R1在多个法律基准测试中表现出色,超越同等规模模型,并与更大模型性能相当。
📝 摘要(中文)
本文介绍Unilaw-R1,一个专为法律推理设计的大语言模型。该模型仅有70亿参数,显著降低了部署成本,同时有效应对法律领域的三大核心挑战:法律知识不足、推理逻辑不可靠以及业务泛化能力弱。为解决这些问题,首先构建了Unilaw-R1-Data,一个包含1.7万个高质量的思维链(CoT)样本的数据集。在此基础上,采用结合监督微调(SFT)和强化学习(RL)的两阶段训练策略,显著提升了复杂法律推理任务的性能,并支持法律AI应用中可解释的决策。为了评估法律推理能力,还引入了Unilaw-R1-Eval,一个专门用于评估模型在单选题和多选题法律任务上的基准。Unilaw-R1在权威基准上表现出强大的结果,优于所有类似规模的模型,并达到了与更大的DeepSeek-R1-Distill-Qwen-32B相当的性能(54.9%)。经过特定领域的训练后,在LawBench和LexEval上也显示出显著的提升,平均超过Qwen-2.5-7B-Instruct(46.6%)6.6%。
🔬 方法详解
问题定义:现有的大语言模型在处理复杂的法律问题时,面临着法律知识储备不足、推理逻辑不够严谨以及在实际业务场景中的泛化能力较弱等问题。这些问题限制了LLM在法律领域的应用,例如智能法律咨询、案件分析等。
核心思路:Unilaw-R1的核心思路是通过高质量的法律数据构建和有效的训练策略来提升模型在法律领域的推理能力。具体来说,首先构建一个高质量的法律数据集,然后采用两阶段训练方法,结合监督微调和强化学习,使模型能够更好地学习法律知识和推理逻辑。
技术框架:Unilaw-R1的整体框架包含数据构建、模型训练和评估三个主要阶段。数据构建阶段,构建Unilaw-R1-Data数据集,包含1.7万个高质量的CoT样本。模型训练阶段,采用SFT和RL的两阶段训练策略。评估阶段,使用Unilaw-R1-Eval基准评估模型在单选题和多选题法律任务上的表现。
关键创新:Unilaw-R1的关键创新在于结合了高质量的法律数据集和两阶段训练策略。通过高质量的数据,模型能够学习到更准确的法律知识。通过SFT和RL的结合,模型不仅能够模仿人类的推理过程,还能够通过强化学习来优化推理策略,从而提高推理的准确性和可靠性。
关键设计:Unilaw-R1的关键设计包括:1) Unilaw-R1-Data数据集的构建,采用蒸馏和筛选的方法保证数据质量;2) 两阶段训练策略,SFT阶段使用CoT数据进行微调,RL阶段使用奖励模型来指导模型的训练;3) Unilaw-R1-Eval基准的设计,包含单选题和多选题,全面评估模型的法律推理能力。具体的损失函数和网络结构细节未在摘要中提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Unilaw-R1在权威基准测试中表现出色,超越了所有同等规模的模型,并达到了与更大的DeepSeek-R1-Distill-Qwen-32B模型相当的性能(54.9%)。经过特定领域的训练后,在LawBench和LexEval上,Unilaw-R1的性能平均超过Qwen-2.5-7B-Instruct模型6.6%。这些结果表明Unilaw-R1在法律推理方面具有显著的优势。
🎯 应用场景
Unilaw-R1在智能法律咨询、案件分析、合同审查等领域具有广泛的应用前景。它可以帮助律师和法律从业者更高效地处理法律事务,降低法律服务成本,并为普通民众提供更便捷的法律咨询服务。未来,Unilaw-R1有望成为法律AI领域的重要基础设施。
📄 摘要(原文)
Reasoning-focused large language models (LLMs) are rapidly evolving across various domains, yet their capabilities in handling complex legal problems remains underexplored. In this paper, we introduce Unilaw-R1, a large language model tailored for legal reasoning. With a lightweight 7-billion parameter scale, Unilaw-R1 significantly reduces deployment cost while effectively tackling three core challenges in the legal domain: insufficient legal knowledge, unreliable reasoning logic, and weak business generalization. To address these issues, we first construct Unilaw-R1-Data, a high-quality dataset containing 17K distilled and screened chain-of-thought (CoT) samples. Based on this, we adopt a two-stage training strategy combining Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), which significantly boosts the performance on complex legal reasoning tasks and supports interpretable decision-making in legal AI applications. To assess legal reasoning ability, we also introduce Unilaw-R1-Eval, a dedicated benchmark designed to evaluate models across single- and multi-choice legal tasks. Unilaw-R1 demonstrates strong results on authoritative benchmarks, outperforming all models of similar scale and achieving performance on par with the much larger DeepSeek-R1-Distill-Qwen-32B (54.9%). Following domain-specific training, it also showed significant gains on LawBench and LexEval, exceeding Qwen-2.5-7B-Instruct (46.6%) by an average margin of 6.6%.