LexPro-1.0 Technical Report

作者: Haotian Chen, Yanyu Xu, Boyan Wang, Chaoyue Zhao, Xiaoyu Han, Fang Wang, Lizhen Cui, Yonghui Xu

分类: cs.CL

发布日期: 2025-03-10 (更新: 2025-03-11)

💡 一句话要点

LexPro-1.0：面向中国法律领域的高精度推理大语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 法律大语言模型 法律推理 监督微调 强化学习 法律知识图谱 DeepSeek-R1-Distilled

📋 核心要点

现有法律大语言模型缺乏法律专业知识和逻辑的深入融合，难以满足高精度法律应用的需求。
LexPro-1.0通过汇编大规模法律文档，并进行监督微调和强化学习，提升模型在法律领域的推理能力和可解释性。
该模型基于DeepSeek-R1-Distilled，提供14B、32B和70B三种配置，并通过法律专家进行人工评估验证其有效性。

📝 摘要（中文）

本报告介绍了我们第一代推理模型LexPro-1.0，这是一款专为中国法律领域设计的大型语言模型，旨在提供全面的能力以满足各种实际需求。现有的法律LLM面临两个主要挑战。首先，它们的设计和评估主要由计算机科学的角度驱动，导致对法律专业知识和逻辑的融入不足，这对于高精度的法律应用（如处理复杂的检察任务）至关重要。其次，由于缺乏来自法律领域的全面训练数据，这些模型通常表现不佳，限制了它们有效应对现实世界法律场景的能力。为了解决这个问题，我们首先汇编了数百万份法律文件，涵盖中国31个省份的20多种犯罪类型，用于模型训练。从广泛的数据集中，我们进一步选择高质量的数据进行监督微调，确保增强相关性和精确性。该模型还进行了大规模的强化学习，无需额外的监督，强调增强其推理能力和可解释性。为了验证其在复杂法律应用中的有效性，我们还与法律专家进行了人工评估。我们基于DeepSeek-R1-Distilled版本开发了微调模型，提供三种密集配置：14B、32B和70B。

🔬 方法详解

问题定义：现有法律大语言模型的设计和评估主要由计算机科学角度驱动，缺乏对法律专业知识和逻辑的深入融合，导致在处理复杂法律任务时精度不足。同时，缺乏全面的法律领域训练数据也限制了模型在实际法律场景中的应用效果。

核心思路：LexPro-1.0的核心思路是通过构建大规模、高质量的法律领域数据集，并结合监督微调和强化学习，提升模型在法律领域的推理能力和可解释性。通过法律专家的参与，确保模型能够更好地理解和应用法律逻辑。

技术框架：LexPro-1.0的训练流程主要包括以下几个阶段：1) 数据收集：汇编数百万份法律文件，涵盖多种犯罪类型和地区。2) 数据筛选：从海量数据中选择高质量数据进行监督微调。3) 监督微调：使用高质量法律数据对模型进行微调，提升模型对法律知识的理解和应用能力。4) 强化学习：通过强化学习进一步提升模型的推理能力和可解释性，无需额外的人工标注。5) 模型评估：与法律专家合作，对模型在复杂法律任务中的表现进行评估。

关键创新：LexPro-1.0的关键创新在于其对法律领域知识的深度融合和对模型可解释性的重视。通过大规模的法律数据训练和强化学习，模型能够更好地理解法律逻辑，并提供更可靠的推理结果。此外，与法律专家的合作也确保了模型能够更好地满足实际法律应用的需求。

关键设计：LexPro-1.0基于DeepSeek-R1-Distilled版本进行微调，提供14B、32B和70B三种密集配置。在强化学习阶段，具体使用的奖励函数和训练策略未知，但强调了对模型推理能力和可解释性的提升。监督微调阶段，高质量数据的选择标准和微调的具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

报告中提到与法律专家进行了人工评估，验证了LexPro-1.0在复杂法律应用中的有效性。虽然没有提供具体的性能数据和对比基线，但强调了模型在推理能力和可解释性方面的提升。未来研究可以提供更详细的实验结果，例如在特定法律任务上的准确率、召回率等指标。

🎯 应用场景

LexPro-1.0可应用于多种法律领域，例如智能法律咨询、案件分析、法律文书生成、辅助检察等。该模型能够帮助法律从业者提高工作效率，降低错误率，并为公众提供更便捷的法律服务。未来，该模型有望在推动法律智能化方面发挥重要作用。

📄 摘要（原文）

In this report, we introduce our first-generation reasoning model, LexPro-1.0, a large language model designed for the highly specialized Chinese legal domain, offering comprehensive capabilities to meet diverse realistic needs. Existing legal LLMs face two primary challenges. Firstly, their design and evaluation are predominantly driven by computer science perspectives, leading to insufficient incorporation of legal expertise and logic, which is crucial for high-precision legal applications, such as handling complex prosecutorial tasks. Secondly, these models often underperform due to a lack of comprehensive training data from the legal domain, limiting their ability to effectively address real-world legal scenarios. To address this, we first compile millions of legal documents covering over 20 types of crimes from 31 provinces in China for model training. From the extensive dataset, we further select high-quality for supervised fine-tuning, ensuring enhanced relevance and precision. The model further undergoes large-scale reinforcement learning without additional supervision, emphasizing the enhancement of its reasoning capabilities and explainability. To validate its effectiveness in complex legal applications, we also conduct human evaluations with legal experts. We develop fine-tuned models based on DeepSeek-R1-Distilled versions, available in three dense configurations: 14B, 32B, and 70B.

LexPro-1.0 Technical Report

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理