LRAS: Advanced Legal Reasoning with Agentic Search

📄 arXiv: 2601.07296v1 📥 PDF

作者: Yujin Zhou, Chuxue Cao, Jinluan Yang, Lijun Wu, Conghui He, Sirui Han, Yike Guo

分类: cs.AI, cs.CL

发布日期: 2026-01-12


💡 一句话要点

提出LRAS框架,通过Agentic Search提升法律大语言模型推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 法律推理 大语言模型 Agentic Search 内省模仿学习 强化学习 知识检索 法律人工智能

📋 核心要点

  1. 现有法律LLM依赖闭环推理,缺乏对自身知识边界的认知,易产生错误结论。
  2. LRAS框架通过Agentic Search,将法律LLM从闭环思维转变为主动探究模式。
  3. LRAS集成了内省模仿学习和难度感知强化学习,显著提升了法律推理性能。

📝 摘要(中文)

大型推理模型(LRMs)在数学领域展现了卓越的逻辑能力,但由于法律领域对程序严谨性和法律逻辑的严格要求,它们在法律领域的应用仍然受到阻碍。现有的法律LLM依赖于完全来自内部参数知识的“闭环推理”,常常缺乏对其知识边界的自我意识,导致自信但错误的结论。为了解决这个挑战,我们提出了法律推理与Agentic Search (LRAS),这是第一个旨在将法律LLM从静态和参数化的“闭环思维”转变为动态和交互式的“主动探究”的框架。通过整合内省模仿学习和难度感知强化学习,LRAS使LRM能够识别知识边界并处理法律推理的复杂性。经验结果表明,LRAS优于最先进的基线8.2-32%,在需要可靠知识进行深度推理的任务中观察到最显着的收益。我们将很快发布我们的数据和模型,以供进一步探索。

🔬 方法详解

问题定义:现有法律大语言模型(LLMs)在法律推理任务中,过度依赖模型内部的参数知识,缺乏与外部知识的交互和验证,导致在知识边界之外做出错误的判断。这种“闭环推理”方式无法满足法律领域对准确性和可靠性的严格要求。因此,需要一种方法能够让法律LLM具备自我认知能力,能够识别自身知识的局限性,并主动地探索和利用外部知识。

核心思路:LRAS的核心思路是将法律LLM从被动的“闭环推理”转变为主动的“主动探究”。通过引入Agentic Search机制,让LLM能够像智能体一样,主动地搜索、验证和整合外部知识,从而提高推理的准确性和可靠性。这种设计借鉴了人类专家在解决复杂问题时的思维方式,即不断地提出假设、验证假设、并根据反馈调整策略。

技术框架:LRAS框架主要包含以下几个关键模块:1) Agentic Search模块:负责根据当前的推理状态,生成搜索查询,并从外部知识库中检索相关信息。2) 内省模仿学习模块:通过模仿专家律师的推理过程,学习如何识别知识边界,并生成有效的搜索查询。3) 难度感知强化学习模块:根据推理任务的难度,动态地调整搜索策略,从而提高搜索效率和推理准确性。整个流程是,LLM首先进行初步推理,然后通过Agentic Search模块进行知识检索,接着利用检索到的知识进行验证和修正,最终得到更准确的推理结果。

关键创新:LRAS的关键创新在于将Agentic Search引入到法律LLM中,实现了从“闭环推理”到“主动探究”的转变。与传统的法律LLM相比,LRAS能够更好地利用外部知识,提高推理的准确性和可靠性。此外,内省模仿学习和难度感知强化学习的结合,进一步提升了LRAS的性能。

关键设计:在内省模仿学习中,使用了专家律师的推理过程作为训练数据,通过模仿学习算法,让LLM学习如何识别知识边界,并生成有效的搜索查询。在难度感知强化学习中,使用了奖励函数来鼓励LLM进行有效的搜索,并惩罚错误的推理结果。此外,还设计了一种难度评估机制,用于评估推理任务的难度,并根据难度动态地调整搜索策略。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LRAS在法律推理任务中显著优于现有基线模型,性能提升8.2-32%。尤其是在需要深度推理和可靠知识的任务中,LRAS的优势更加明显。这些结果验证了Agentic Search在法律LLM中的有效性,并为未来的研究提供了新的方向。

🎯 应用场景

LRAS框架可应用于智能法律咨询、法律文书审查、案件分析等领域。通过提升法律LLM的推理能力和准确性,可以为律师、法官和普通民众提供更可靠的法律服务,提高法律行业的效率和质量。未来,该研究有望推动法律人工智能的发展,促进法律服务的普及化和智能化。

📄 摘要(原文)

While Large Reasoning Models (LRMs) have demonstrated exceptional logical capabilities in mathematical domains, their application to the legal field remains hindered by the strict requirements for procedural rigor and adherence to legal logic. Existing legal LLMs, which rely on "closed-loop reasoning" derived solely from internal parametric knowledge, frequently suffer from lack of self-awareness regarding their knowledge boundaries, leading to confident yet incorrect conclusions. To address this challenge, we present Legal Reasoning with Agentic Search (LRAS), the first framework designed to transition legal LLMs from static and parametric "closed-loop thinking" to dynamic and interactive "Active Inquiry". By integrating Introspective Imitation Learning and Difficulty-aware Reinforcement Learning, LRAS enables LRMs to identify knowledge boundaries and handle legal reasoning complexity. Empirical results demonstrate that LRAS outperforms state-of-the-art baselines by 8.2-32\%, with the most substantial gains observed in tasks requiring deep reasoning with reliable knowledge. We will release our data and models for further exploration soon.