Can LLMs Time Travel? Enhancing Temporal Consistency in Legal Agentic Search through Reinforcement Learning

📄 arXiv: 2605.25920v1 📥 PDF

作者: Wei Fan, Yining Zhou, Mufan Zhang, Yanbing Weng, Yiran HU, Tianshi Zheng, Baixuan Xu, Chunyang Li, Jianhui Yang, Haoran Li, Yangqiu Song

分类: cs.CL, cs.AI

发布日期: 2026-05-25

备注: Under Review

🔗 代码/项目: GITHUB


💡 一句话要点

提出LegalSearch-R1框架,通过强化学习提升法律Agent在时序一致性上的表现

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 法律Agent 时序一致性 强化学习 检索增强生成 大语言模型

📋 核心要点

  1. 现有法律LLM在Agent搜索中忽略了法律适用的时序性,导致推理错误。
  2. LegalSearch-R1框架结合本地法条RAG和在线网络搜索,通过强化学习保证时序一致性。
  3. 实验表明,LegalSearch-R1在多个法律任务上显著优于现有方法,并具有良好的泛化能力。

📝 摘要(中文)

本文针对法律领域的大语言模型(LLM)在Agent搜索能力上的不足,指出其忽略了法律适用的时序性约束,即法律条文必须与案件发生的时间背景相符。现有法律LLM存在训练截止日期带来的时序偏差,搜索Agent很少将时序约束纳入查询,且网络搜索难以提供法律推理所需的精确法条和判例引用。为此,我们提出了LegalSearch-R1,一个端到端的强化学习框架,它结合了本地法条RAG(检索增强生成)以实现精确的条文匹配,以及在线网络搜索以获取更广泛的法律知识。该框架在跨多个修正时期的时序索引数据上进行训练,以强制执行时序一致性。在包含13个法律任务的基准测试中,我们的70亿参数Agent优于最先进的深度研究框架和专业法律LLM 12.9%到29.8%,在时序一致性方面超过基线57.7%到80.3%,并表现出强大的领域外泛化能力。

🔬 方法详解

问题定义:现有法律LLM在进行Agent搜索时,常常忽略法律适用的时序性约束。具体来说,法律条文的适用必须与案件发生的时间背景相符,否则会违反法律原则并导致错误的结论。现有的法律LLM容易受到训练数据截止日期的影响,产生时序偏差,而搜索Agent在查询时很少考虑时序约束,并且网络搜索难以提供法律推理所需的精确法条和判例引用。

核心思路:LegalSearch-R1的核心思路是结合本地法条的检索增强生成(RAG)和在线网络搜索,并通过强化学习来训练Agent,使其能够有效地利用这两种信息源,同时保证时序一致性。本地法条RAG用于提供精确的条文匹配,而在线网络搜索用于获取更广泛的法律知识。强化学习则用于优化Agent的搜索策略,使其能够根据案件的时间背景选择合适的法律条文和信息。

技术框架:LegalSearch-R1是一个端到端的强化学习框架,主要包含以下几个模块:1) 状态表示模块:将案件描述和当前搜索状态编码为向量表示;2) 动作选择模块:根据状态表示选择下一步的搜索动作,包括查询本地法条、进行网络搜索等;3) 奖励函数模块:根据Agent的搜索结果和推理结果,给予Agent相应的奖励或惩罚,以鼓励Agent选择能够提高时序一致性和推理准确性的动作;4) 策略优化模块:使用强化学习算法(如PPO)优化Agent的策略,使其能够更好地完成法律推理任务。

关键创新:LegalSearch-R1最重要的技术创新点在于其将本地法条RAG和在线网络搜索相结合,并通过强化学习来保证时序一致性。与现有方法相比,LegalSearch-R1能够更有效地利用法律知识,并避免因忽略时序约束而导致的推理错误。此外,LegalSearch-R1的端到端训练方式也使其能够更好地适应不同的法律任务。

关键设计:LegalSearch-R1的关键设计包括:1) 使用时序索引的法律数据,确保Agent能够学习到法律条文的时效性;2) 设计合适的奖励函数,鼓励Agent选择能够提高时序一致性和推理准确性的动作;3) 使用PPO算法优化Agent的策略,使其能够稳定地学习和提高性能;4) 使用7B参数的LLM作为Agent的基础模型,以保证其具有足够的推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LegalSearch-R1在包含13个法律任务的基准测试中,优于最先进的深度研究框架和专业法律LLM 12.9%到29.8%,在时序一致性方面超过基线57.7%到80.3%,并表现出强大的领域外泛化能力。这些结果表明,LegalSearch-R1能够有效地提高法律Agent的时序一致性和推理准确性。

🎯 应用场景

该研究成果可应用于智能法律咨询、法律文书撰写、案件分析等领域。通过提高法律Agent的时序一致性,可以减少法律推理错误,提高法律服务的质量和效率。未来,该技术有望应用于更广泛的法律领域,例如合同审查、合规管理等,并为法律从业者提供更强大的辅助工具。

📄 摘要(原文)

While large language models (LLMs) augmented with agentic search capabilities show promise for legal reasoning, they overlook a fundamental constraint that applicable law must match the temporal context of each case, as retroactive application of statutes violates core legal principles and leads to erroneous conclusions. Our observations reveal that current legal LLMs suffer from temporal bias anchored to their training cutoff, while search agents rarely incorporate temporal constraints into queries, and that web search alone cannot provide the precise statute and precedent citations that legal reasoning demands. To address these challenges, we propose LegalSearch-R1, an end-to-end reinforcement learning framework that pairs local statute RAG for precise article matching with online web search for broader legal knowledge, trained on temporally-indexed data spanning multiple amendment periods to enforce temporal consistency. Extensive experiments on our benchmark covering 13 legal tasks demonstrate that our 7B-parameter agent outperforms state-of-the-art deep research frameworks and specialized legal LLMs by 12.9% to 29.8%, surpasses baselines by 57.7% to 80.3% on temporal consistency, and exhibits robust out-of-domain generalization. The code and data are available at https://github.com/AlexFanw/LegalSearch-R1.