NOWJ@COLIEE 2025: A Multi-stage Framework Integrating Embedding Models and Large Language Models for Legal Retrieval and Entailment
作者: Hoang-Trung Nguyen, Tan-Minh Nguyen, Xuan-Bach Le, Tuan-Kiet Le, Khanh-Huyen Nguyen, Ha-Thanh Nguyen, Thi-Hai-Yen Vuong, Le-Minh Nguyen
分类: cs.CL, cs.AI
发布日期: 2025-09-09
💡 一句话要点
NOWJ团队提出多阶段框架,融合嵌入模型与大语言模型,用于法律检索和蕴含任务。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律信息检索 文本蕴含 大语言模型 嵌入模型 多阶段框架
📋 核心要点
- 现有法律信息处理方法在语义理解和上下文推理方面存在不足,难以准确捕捉法律文本的复杂含义。
- 论文提出一种多阶段框架,融合预排序模型、嵌入模型和大语言模型,以提升法律检索和蕴含任务的性能。
- 实验结果表明,该框架在法律案例蕴含任务中取得了显著的性能提升,F1值达到0.3195,排名第一。
📝 摘要(中文)
本文介绍了NOWJ团队参与COLIEE 2025竞赛所有五个任务的方法和结果,重点介绍了法律案例蕴含任务(任务2)的进展。我们采用了一种综合方法,系统地集成了预排序模型(BM25、BERT、monoT5)、基于嵌入的语义表示(BGE-m3、LLM2Vec)和先进的大语言模型(Qwen-2、QwQ-32B、DeepSeek-V3),用于摘要、相关性评分和上下文重排序。特别是在任务2中,我们的两阶段检索系统将词汇-语义过滤与上下文LLM分析相结合,以0.3195的F1分数获得第一名。此外,在其他任务中——包括法律案例检索、法规检索、法律文本蕴含和法律判决预测——我们通过精心设计的集成和有效的基于提示的推理策略展示了强大的性能。我们的研究结果突出了混合模型(将传统IR技术与当代生成模型相结合)的潜力,为法律信息处理的未来发展提供了有价值的参考。
🔬 方法详解
问题定义:论文旨在解决法律领域的信息检索和文本蕴含问题,特别是法律案例蕴含任务。现有方法在处理法律文本时,难以有效捕捉其复杂的语义关系和上下文信息,导致检索和蕴含的准确率较低。
核心思路:论文的核心思路是将传统的信息检索技术与现代的深度学习模型相结合,利用预排序模型进行初步筛选,然后利用嵌入模型和大语言模型进行更深入的语义理解和上下文推理,从而提高检索和蕴含的准确率。
技术框架:该框架采用多阶段流程。首先,使用预排序模型(如BM25、BERT、monoT5)进行初步检索,筛选出候选文档。然后,利用嵌入模型(如BGE-m3、LLM2Vec)将文本表示为语义向量。接着,使用大语言模型(如Qwen-2、QwQ-32B、DeepSeek-V3)进行摘要、相关性评分和上下文重排序。最后,根据排序结果进行法律蕴含判断。
关键创新:该方法最重要的创新点在于将传统的词汇-语义过滤与上下文LLM分析相结合,充分利用了传统信息检索技术的效率和深度学习模型的语义理解能力。这种混合方法能够更准确地捕捉法律文本的复杂含义,从而提高检索和蕴含的准确率。
关键设计:在任务2中,该框架采用两阶段检索系统,首先使用词汇-语义过滤筛选候选案例,然后使用上下文LLM分析进行重排序。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该研究在COLIEE 2025法律案例蕴含任务(Task 2)中取得了显著成果,以0.3195的F1分数获得第一名。该结果表明,所提出的多阶段框架能够有效提升法律信息检索和蕴含的性能,优于其他参赛队伍的方法。具体的基线对比数据未知。
🎯 应用场景
该研究成果可应用于智能法律咨询、法律案例检索、法律文本分析等领域。通过提高法律信息检索和蕴含的准确率,可以帮助律师、法官和法律研究人员更高效地获取和理解法律信息,从而提高法律服务的质量和效率。未来,该方法有望应用于更广泛的法律人工智能领域。
📄 摘要(原文)
This paper presents the methodologies and results of the NOWJ team's participation across all five tasks at the COLIEE 2025 competition, emphasizing advancements in the Legal Case Entailment task (Task 2). Our comprehensive approach systematically integrates pre-ranking models (BM25, BERT, monoT5), embedding-based semantic representations (BGE-m3, LLM2Vec), and advanced Large Language Models (Qwen-2, QwQ-32B, DeepSeek-V3) for summarization, relevance scoring, and contextual re-ranking. Specifically, in Task 2, our two-stage retrieval system combined lexical-semantic filtering with contextualized LLM analysis, achieving first place with an F1 score of 0.3195. Additionally, in other tasks--including Legal Case Retrieval, Statute Law Retrieval, Legal Textual Entailment, and Legal Judgment Prediction--we demonstrated robust performance through carefully engineered ensembles and effective prompt-based reasoning strategies. Our findings highlight the potential of hybrid models integrating traditional IR techniques with contemporary generative models, providing a valuable reference for future advancements in legal information processing.