LexRAG: Benchmarking Retrieval-Augmented Generation in Multi-Turn Legal Consultation Conversation

📄 arXiv: 2502.20640v1 📥 PDF

作者: Haitao Li, Yifan Chen, Yiran Hu, Qingyao Ai, Junjie Chen, Xiaoyu Yang, Jianhui Yang, Yueyue Wu, Zeyang Liu, Yiqun Liu

分类: cs.CL, cs.IR

发布日期: 2025-02-28

备注: 10 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出LexRAG:用于多轮法律咨询对话中检索增强生成的新基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 法律咨询 多轮对话 基准测试 大型语言模型

📋 核心要点

  1. 现有RAG系统在法律领域缺乏专门的评估基准,限制了其在该领域的应用和发展。
  2. LexRAG基准通过构建多轮法律咨询对话数据集,并设计对话知识检索和回复生成任务,来评估RAG系统。
  3. 实验结果揭示了现有RAG系统在处理法律咨询对话方面的局限性,为未来研究提供了方向。

📝 摘要(中文)

检索增强生成(RAG)已被证明在提升大型语言模型(LLM)在各个领域的性能方面非常有效。然而,目前缺乏专门为评估RAG在法律领域有效性的基准,这限制了该领域的发展。为了填补这一空白,我们提出了LexRAG,这是首个用于评估多轮法律咨询RAG系统的基准。LexRAG包含1013个多轮对话样本和17228篇候选法律条文。每个样本都由法律专家标注,包含五个轮次的渐进式提问。LexRAG包括两个关键任务:(1)对话知识检索,要求基于多轮上下文准确检索相关的法律条文;(2)回复生成,侧重于生成符合法律规定的答案。为了确保可靠的复现性,我们开发了LexiT,一个法律RAG工具包,它提供了为法律领域量身定制的RAG系统组件的全面实现。此外,我们引入了一个LLM-as-a-judge评估流程,以实现详细而有效的评估。通过对各种LLM和检索方法的实验分析,我们揭示了现有RAG系统在处理法律咨询对话方面的关键局限性。LexRAG为RAG系统在法律领域的实际应用建立了一个新的基准,其代码和数据可在https://github.com/CSHaitao/LexRAG获取。

🔬 方法详解

问题定义:论文旨在解决法律领域缺乏RAG系统评估基准的问题。现有方法在法律咨询场景下,无法有效评估RAG系统在多轮对话中检索相关法律条文和生成法律上合理的回复的能力。这阻碍了RAG技术在法律领域的应用和发展。

核心思路:论文的核心思路是构建一个专门针对多轮法律咨询对话的RAG评估基准,即LexRAG。通过提供高质量的数据集和任务,以及相应的评估工具,来促进RAG系统在法律领域的研究和应用。这样设计可以更准确地反映RAG系统在实际法律咨询场景中的表现。

技术框架:LexRAG基准主要包含以下几个部分:1) 多轮法律咨询对话数据集:包含1013个多轮对话样本和17228篇候选法律条文,由法律专家标注。2) 两个关键任务:对话知识检索(检索相关法律条文)和回复生成(生成法律上合理的回复)。3) 法律RAG工具包LexiT:提供RAG系统组件的全面实现。4) LLM-as-a-judge评估流程:使用LLM进行详细评估。

关键创新:LexRAG的主要创新在于它是第一个专门针对多轮法律咨询对话的RAG评估基准。它提供了一个高质量的数据集,涵盖了实际法律咨询场景中的复杂对话和法律知识。此外,LexiT工具包和LLM-as-a-judge评估流程也为RAG系统的开发和评估提供了便利。与现有方法相比,LexRAG更专注于法律领域的特定需求,能够更准确地评估RAG系统的性能。

关键设计:LexRAG数据集中的每个样本包含五个轮次的渐进式提问,模拟了真实的法律咨询过程。对话知识检索任务要求系统根据多轮上下文检索相关的法律条文。回复生成任务要求系统生成符合法律规定的答案。LexiT工具包提供了多种检索方法和LLM模型的实现,方便研究人员进行实验。LLM-as-a-judge评估流程使用LLM作为评估者,对生成的回复进行详细的法律合理性评估。具体的参数设置、损失函数和网络结构等技术细节取决于所使用的检索方法和LLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的RAG系统在处理法律咨询对话方面存在局限性,特别是在多轮对话上下文理解和法律知识的准确检索方面。通过在LexRAG基准上对各种LLM和检索方法进行评估,论文揭示了这些局限性,并为未来的研究提供了改进方向。具体的性能数据和对比基线可在论文中找到。

🎯 应用场景

该研究成果可应用于智能法律咨询、法律知识问答、法律文书生成等领域。通过提升RAG系统在法律领域的性能,可以为律师、法务人员和普通民众提供更准确、高效的法律服务,降低法律咨询成本,促进法律知识的普及。未来,该基准可以进一步扩展到其他法律领域,并与其他技术(如知识图谱)相结合,构建更强大的法律智能系统。

📄 摘要(原文)

Retrieval-augmented generation (RAG) has proven highly effective in improving large language models (LLMs) across various domains. However, there is no benchmark specifically designed to assess the effectiveness of RAG in the legal domain, which restricts progress in this area. To fill this gap, we propose LexRAG, the first benchmark to evaluate RAG systems for multi-turn legal consultations. LexRAG consists of 1,013 multi-turn dialogue samples and 17,228 candidate legal articles. Each sample is annotated by legal experts and consists of five rounds of progressive questioning. LexRAG includes two key tasks: (1) Conversational knowledge retrieval, requiring accurate retrieval of relevant legal articles based on multi-turn context. (2) Response generation, focusing on producing legally sound answers. To ensure reliable reproducibility, we develop LexiT, a legal RAG toolkit that provides a comprehensive implementation of RAG system components tailored for the legal domain. Additionally, we introduce an LLM-as-a-judge evaluation pipeline to enable detailed and effective assessment. Through experimental analysis of various LLMs and retrieval methods, we reveal the key limitations of existing RAG systems in handling legal consultation conversations. LexRAG establishes a new benchmark for the practical application of RAG systems in the legal domain, with its code and data available at https://github.com/CSHaitao/LexRAG.