Legal-DC: Benchmarking Retrieval-Augmented Generation for Legal Documents

📄 arXiv: 2603.11772v1 📥 PDF

作者: Yaocong Li, Qiang Lan, Leihan Zhang, Le Zhang

分类: cs.CL

发布日期: 2026-03-12

备注: 20 pages, 4 figures, to be submitted to a conference/journal

🔗 代码/项目: GITHUB


💡 一句话要点

提出Legal-DC基准和LegRAG框架,提升中文法律文档RAG性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 法律文档 中文法律 基准数据集 自适应索引 双路径自反思 大型语言模型

📋 核心要点

  1. 现有中文法律RAG基准缺乏对检索器和生成器的联合评估,且难以处理法律条文的结构化特性。
  2. 提出LegRAG框架,结合法律自适应索引和双路径自反思机制,提升答案准确性和条款完整性。
  3. 构建Legal-DC基准数据集,并引入自动评估方法,实验表明LegRAG性能优于现有方法。

📝 摘要(中文)

检索增强生成(RAG)已成为法律文档咨询领域的一项有前景的技术,但其在中文法律场景中的应用面临两个关键限制:现有基准缺乏对检索器-生成器联合评估的专门支持,并且主流RAG系统通常无法适应法律条文的结构化性质。为了解决这些差距,本研究提出了两个核心贡献:首先,我们构建了Legal-DC基准数据集,包含480份法律文件(涵盖市场监管和合同管理等领域)和2475个精炼的问答对,每个问答对都标注了条款级别的引用,填补了中文法律RAG领域专门评估资源的空白。其次,我们提出了LegRAG框架,该框架集成了法律自适应索引(条款边界分割)和双路径自反思机制,以确保条款完整性,同时提高答案准确性。第三,我们引入了用于大型语言模型的自动评估方法,以满足法律检索场景的高可靠性需求。LegRAG在关键评估指标上优于现有的最先进方法1.3%到5.6%。这项研究提供了一个专门的基准、实用的框架和经验见解,以推进中文法律RAG系统的发展。我们的代码和数据可在https://github.com/legal-dc/Legal-DC获取。

🔬 方法详解

问题定义:现有中文法律领域的RAG系统面临两个主要问题。一是缺乏专门的基准数据集来评估检索器和生成器的联合性能。二是现有RAG系统难以有效处理法律条文的结构化特性,例如条款之间的依赖关系和上下文信息,导致检索和生成结果不准确。

核心思路:LegRAG的核心思路是结合法律自适应索引和双路径自反思机制,从而更有效地利用法律文档的结构化信息,并提高答案的准确性和完整性。法律自适应索引旨在识别和分割法律条文的边界,确保检索到的信息是完整的条款。双路径自反思机制则通过两条路径分别进行检索和生成,并进行交叉验证和修正,从而提高答案的可靠性。

技术框架:LegRAG框架主要包含三个模块:1) 法律自适应索引模块,用于识别和分割法律文档中的条款边界;2) 双路径检索增强生成模块,包含两条路径,一条路径进行传统的检索和生成,另一条路径则利用法律结构化信息进行检索和生成;3) 自反思模块,用于对两条路径的结果进行交叉验证和修正,最终生成答案。

关键创新:LegRAG的关键创新在于:1) 提出了法律自适应索引,能够有效识别和分割法律条文的边界,从而确保检索到的信息是完整的条款;2) 提出了双路径自反思机制,通过两条路径分别进行检索和生成,并进行交叉验证和修正,从而提高答案的可靠性。

关键设计:法律自适应索引模块使用基于规则和机器学习相结合的方法来识别条款边界。双路径检索增强生成模块中,一条路径使用传统的向量检索方法,另一条路径则使用基于法律结构化信息的检索方法。自反思模块使用基于规则和机器学习相结合的方法来对两条路径的结果进行交叉验证和修正。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

LegRAG在Legal-DC基准数据集上取得了显著的性能提升,在关键评估指标上优于现有的最先进方法1.3%到5.6%。实验结果表明,法律自适应索引和双路径自反思机制能够有效提高中文法律RAG系统的性能。

🎯 应用场景

该研究成果可应用于智能法律咨询、法律知识问答、法律文书自动生成等领域。通过提高法律文档检索和生成的准确性和可靠性,可以帮助律师、法务人员和普通用户更高效地获取和利用法律信息,降低法律服务成本,促进法律知识的普及。

📄 摘要(原文)

Retrieval-Augmented Generation (RAG) has emerged as a promising technology for legal document consultation, yet its application in Chinese legal scenarios faces two key limitations: existing benchmarks lack specialized support for joint retriever-generator evaluation, and mainstream RAG systems often fail to accommodate the structured nature of legal provisions. To address these gaps, this study advances two core contributions: First, we constructed the Legal-DC benchmark dataset, comprising 480 legal documents (covering areas such as market regulation and contract management) and 2,475 refined question-answer pairs, each annotated with clause-level references, filling the gap for specialized evaluation resources in Chinese legal RAG. Second, we propose the LegRAG framework, which integrates legal adaptive indexing (clause-boundary segmentation) with a dual-path self-reflection mechanism to ensure clause integrity while enhancing answer accuracy. Third, we introduce automated evaluation methods for large language models to meet the high-reliability demands of legal retrieval scenarios. LegRAG outperforms existing state-of-the-art methods by 1.3% to 5.6% across key evaluation metrics. This research provides a specialized benchmark, practical framework, and empirical insights to advance the development of Chinese legal RAG systems. Our code and data are available at https://github.com/legal-dc/Legal-DC.