LexGenius: An Expert-Level Benchmark for Large Language Models in Legal General Intelligence
作者: Wenjin Liu, Haoran Luo, Xin Feng, Xiang Ji, Lijuan Zhou, Rui Mao, Jiapu Wang, Shirui Pan, Erik Cambria
分类: cs.CL
发布日期: 2025-12-04 (更新: 2025-12-29)
🔗 代码/项目: GITHUB
💡 一句话要点
提出LexGenius:一个专家级中文法律通用智能大语言模型评测基准。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律通用智能 大语言模型 评测基准 法律AI 自然语言处理
📋 核心要点
- 现有法律领域评测基准侧重结果,缺乏对LLM法律智能的系统性评估,无法有效指导法律通用智能的发展。
- LexGenius构建维度-任务-能力框架,覆盖法律理解、推理和决策等多个维度,全面评估LLM的法律智能。
- 通过人工与LLM结合的方式构建高质量多选题,并进行多轮校验,保证数据的准确性和可靠性。
📝 摘要(中文)
法律通用智能(GI)是指涵盖法律理解、推理和决策的人工智能(AI),它模拟了法律专家在各个领域的专业知识。然而,现有的基准是结果导向的,未能系统地评估大型语言模型(LLM)的法律智能,阻碍了法律GI的发展。为了解决这个问题,我们提出了LexGenius,一个专家级的中文法律基准,用于评估LLM中的法律GI。它遵循维度-任务-能力框架,涵盖七个维度、十一个任务和二十个能力。我们使用最近的法律案例和考试问题来创建多项选择题,并结合人工和LLM审查以降低数据泄露风险,通过多轮检查确保准确性和可靠性。我们使用LexGenius评估了12个最先进的LLM,并进行了深入分析。我们发现LLM在法律智能能力方面存在显著差异,即使是最好的LLM也落后于人类法律专业人士。我们相信LexGenius可以评估LLM的法律智能能力,并促进法律GI的发展。我们的项目可在https://github.com/QwenQKing/LexGenius上找到。
🔬 方法详解
问题定义:现有法律领域的大语言模型评测基准主要关注最终结果,缺乏对模型在法律理解、推理和决策等方面的细粒度能力评估。这导致无法有效诊断模型的优势与不足,阻碍了法律通用智能的进一步发展。此外,现有数据集可能存在数据泄露问题,影响评测的公正性。
核心思路:LexGenius的核心思路是构建一个专家级的、细粒度的法律通用智能评测基准,该基准能够从多个维度、多个任务和多个能力层面对LLM进行全面评估。通过精心设计的多选题,考察模型在法律知识掌握、案例分析、法律推理等方面的能力。同时,采用人工与LLM结合的方式生成数据,并进行多轮校验,以降低数据泄露风险,确保评测的可靠性。
技术框架:LexGenius的整体框架遵循“维度-任务-能力”的设计原则。首先,定义了七个法律领域的核心维度,例如法律概念理解、法律条文适用等。然后,针对每个维度,设计了多个具体的任务,例如案例分析、法律推理等。最后,将每个任务分解为多个能力点,例如识别相关法律条款、评估证据有效性等。基于此框架,构建包含多选题的数据集,用于评估LLM在各个维度、任务和能力上的表现。
关键创新:LexGenius的关键创新在于其细粒度的评估框架和高质量的数据集构建方法。传统的法律评测基准往往只关注最终结果,而LexGenius能够深入评估LLM在各个法律能力上的表现,从而更全面地了解模型的优势与不足。此外,LexGenius采用人工与LLM结合的方式生成数据,并进行多轮校验,有效降低了数据泄露风险,提高了评测的可靠性。
关键设计:LexGenius的关键设计包括:1) 维度-任务-能力框架的设计,确保评测的全面性和细粒度;2) 多选题的设计,考察模型在法律知识、推理和决策等方面的能力;3) 人工与LLM结合的数据生成方法,降低数据泄露风险;4) 多轮数据校验机制,确保数据的准确性和可靠性。具体的参数设置、损失函数、网络结构等技术细节未在论文中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
LexGenius对12个最先进的LLM进行了评估,结果表明,即使是性能最佳的LLM在法律智能方面也与人类法律专家存在显著差距。这表明当前LLM在法律领域的应用仍有很大的提升空间。该研究还揭示了不同LLM在不同法律能力上的差异,为未来的研究方向提供了指导。
🎯 应用场景
LexGenius可用于评估和提升大语言模型在法律领域的应用能力,例如智能法律咨询、合同审查、案件分析等。该基准能够帮助研究人员和开发者更好地了解LLM在法律领域的优势与不足,从而开发出更可靠、更有效的法律AI系统。此外,LexGenius还可以作为法律从业人员评估和选择AI工具的参考。
📄 摘要(原文)
Legal general intelligence (GI) refers to artificial intelligence (AI) that encompasses legal understanding, reasoning, and decision-making, simulating the expertise of legal experts across domains. However, existing benchmarks are result-oriented and fail to systematically evaluate the legal intelligence of large language models (LLMs), hindering the development of legal GI. To address this, we propose LexGenius, an expert-level Chinese legal benchmark for evaluating legal GI in LLMs. It follows a Dimension-Task-Ability framework, covering seven dimensions, eleven tasks, and twenty abilities. We use the recent legal cases and exam questions to create multiple-choice questions with a combination of manual and LLM reviews to reduce data leakage risks, ensuring accuracy and reliability through multiple rounds of checks. We evaluate 12 state-of-the-art LLMs using LexGenius and conduct an in-depth analysis. We find significant disparities across legal intelligence abilities for LLMs, with even the best LLMs lagging behind human legal professionals. We believe LexGenius can assess the legal intelligence abilities of LLMs and enhance legal GI development. Our project is available at https://github.com/QwenQKing/LexGenius.