Optimizing Legal Document Retrieval in Vietnamese with Semi-Hard Negative Mining
作者: Van-Hoang Le, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
分类: cs.IR, cs.CL
发布日期: 2025-07-19
备注: Accepted at ICCCI 2025
💡 一句话要点
提出基于半难负例挖掘的越南语法律文档检索优化框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 法律文档检索 越南语 半难负例挖掘 Bi-Encoder Cross-Encoder
📋 核心要点
- 法律领域对LLM的精度和专业知识要求高,现有方法难以兼顾效率与准确性。
- 采用Bi-Encoder进行初步检索,再用Cross-Encoder进行重排序,并使用半难负例挖掘优化训练。
- 在SoICT Hackathon 2024比赛中取得前三,证明了该方法在法律文档检索中的有效性。
📝 摘要(中文)
大型语言模型(LLMs)在法律等专业领域面临精度和领域知识方面的重大挑战。本文提出了一个简化的两阶段框架,包括检索和重排序,以提高法律文档检索的效率和准确性。该方法采用微调的Bi-Encoder进行快速候选检索,然后使用Cross-Encoder进行精确的重排序,两者都通过策略性的负例挖掘进行优化。关键创新包括引入Exist@m指标来评估检索效果,以及使用半难负例来减轻训练偏差,从而显著提高重排序性能。在SoICT Hackathon 2024法律文档检索比赛中,我们的团队4Huiter取得了前三名的成绩。虽然表现最佳的团队采用了集成模型和基于大型bge-m3架构的迭代自训练,但我们轻量级的单次方法提供了一个具有竞争力的替代方案,且参数少得多。该框架表明,优化的数据处理、定制的损失函数和平衡的负采样对于在法律环境中构建强大的检索增强系统至关重要。
🔬 方法详解
问题定义:论文旨在解决越南语法律文档检索中,大型语言模型在精度和效率上的挑战。现有方法要么精度不足,无法准确找到相关文档;要么效率低下,无法快速响应用户查询。特别是在法律领域,对检索的准确性要求极高,任何疏漏都可能导致严重后果。
核心思路:论文的核心思路是采用一个两阶段的检索和重排序框架。首先,使用Bi-Encoder快速检索出候选文档;然后,使用Cross-Encoder对候选文档进行精确的重排序。通过这种方式,可以兼顾检索的效率和准确性。此外,论文还引入了半难负例挖掘策略,以提高模型的训练效果。
技术框架:该框架包含两个主要阶段:检索阶段和重排序阶段。在检索阶段,使用一个微调的Bi-Encoder模型,将查询和文档分别编码成向量,然后计算它们之间的相似度,选择相似度最高的若干个文档作为候选文档。在重排序阶段,使用一个Cross-Encoder模型,将查询和候选文档一起输入,直接预测它们的相关性得分,然后根据得分对候选文档进行排序,选择得分最高的文档作为最终结果。
关键创新:论文的关键创新在于引入了半难负例挖掘策略。传统的负例挖掘方法要么随机选择负例,要么选择最容易区分的负例。这两种方法都存在问题:前者可能导致训练效率低下,后者可能导致模型过拟合。半难负例挖掘策略选择那些模型预测错误,但又不是最容易区分的负例,这样可以更好地提高模型的泛化能力。此外,论文还提出了Exist@m指标来评估检索效果。
关键设计:在Bi-Encoder和Cross-Encoder的选择上,论文采用了预训练语言模型,并针对越南语法律文档进行了微调。在损失函数方面,论文采用了对比损失函数,并根据半难负例挖掘策略进行了调整。在负例选择方面,论文采用了动态负例选择策略,根据模型当前的训练状态,自适应地选择半难负例。
🖼️ 关键图片
📊 实验亮点
该团队在SoICT Hackathon 2024法律文档检索比赛中取得了前三名的成绩,证明了该方法的有效性。虽然其他顶尖团队使用了集成模型和迭代自训练等复杂技术,但该论文提出的轻量级单次方法在参数量远少的情况下,依然取得了具有竞争力的结果。半难负例挖掘策略显著提升了重排序性能,表明了其在缓解训练偏差方面的有效性。
🎯 应用场景
该研究成果可应用于智能法律咨询、法律法规检索、案件分析等领域。通过提高法律文档检索的准确性和效率,可以帮助律师、法官和法律研究人员更快速地获取所需信息,提高工作效率,并为公众提供更便捷的法律服务。未来,该技术还可扩展到其他专业领域,如医学、金融等。
📄 摘要(原文)
Large Language Models (LLMs) face significant challenges in specialized domains like law, where precision and domain-specific knowledge are critical. This paper presents a streamlined two-stage framework consisting of Retrieval and Re-ranking to enhance legal document retrieval efficiency and accuracy. Our approach employs a fine-tuned Bi-Encoder for rapid candidate retrieval, followed by a Cross-Encoder for precise re-ranking, both optimized through strategic negative example mining. Key innovations include the introduction of the Exist@m metric to evaluate retrieval effectiveness and the use of semi-hard negatives to mitigate training bias, which significantly improved re-ranking performance. Evaluated on the SoICT Hackathon 2024 for Legal Document Retrieval, our team, 4Huiter, achieved a top-three position. While top-performing teams employed ensemble models and iterative self-training on large bge-m3 architectures, our lightweight, single-pass approach offered a competitive alternative with far fewer parameters. The framework demonstrates that optimized data processing, tailored loss functions, and balanced negative sampling are pivotal for building robust retrieval-augmented systems in legal contexts.