A Few Good Clauses: Comparing LLMs vs Domain-Trained Small Language Models on Structured Contract Extraction

📄 arXiv: 2605.05532v1 📥 PDF

作者: Nicole Lincoln, Nick Whitehouse, Jaron Mar, Rivindu Perera

分类: cs.CL, cs.CY

发布日期: 2026-05-07


💡 一句话要点

提出领域专用小型语言模型Olava Extract,以低成本实现超越前沿大模型的合同结构化抽取能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 混合专家模型 合同抽取 法律人工智能 模型私有化 推理成本优化 幻觉抑制

📋 核心要点

  1. 现有前沿大模型在法律合同抽取任务中存在成本高昂、幻觉风险大以及对外部托管基础设施依赖过强等问题。
  2. 论文提出Olava Extract,这是一种针对法律领域优化的自托管混合专家(MoE)小型语言模型,旨在实现高精度与低成本的平衡。
  3. 实验表明,该模型在合同抽取任务中实现了最优的F1分数,同时显著降低了推理成本,并有效减少了法律场景下的幻觉现象。

📝 摘要(中文)

本文评估了领域训练的小型语言模型(SLM)在结构化合同抽取任务中是否能以极低的成本超越前沿大型语言模型(LLM)。研究对比了自托管的法律领域混合专家模型(MoE)——Olava Extract与五种前沿模型。结果显示,Olava Extract在研究中取得了最强的综合性能,宏观F1分数为0.812,微观F1分数为0.842,同时将推理成本降低了78%至97%。此外,该模型实现了最高的精确度,减少了幻觉和无依据的抽取,这在法律工作流中至关重要,因为幻觉会带来运营风险和下游审查负担。研究表明,高性能、可媲美人类的法律AI不再依赖于超大规模的外部托管模型,挑战了企业级AI必须依赖巨型模型和中心化基础设施的传统假设。

🔬 方法详解

问题定义:论文旨在解决法律合同结构化抽取任务中,通用大模型(LLM)因参数规模巨大导致的推理成本高昂、部署灵活性差以及幻觉问题引发的法律合规风险。

核心思路:通过构建领域专用的混合专家模型(MoE),利用高质量法律语料进行针对性训练,证明在特定垂直领域内,小型化、专业化的模型能够通过更高效的参数利用率,在性能上超越通用型巨型模型。

技术框架:Olava Extract采用MoE架构,通过将模型参数划分为多个专家模块,仅在推理时激活部分参数,从而在保持模型表达能力的同时大幅降低计算开销。该模型支持私有化部署,确保了法律数据的隐私与安全性。

关键创新:核心创新在于证明了“领域适配”优于“通用规模”。通过在法律语料上进行深度微调与专家路由优化,模型在处理复杂的合同条款时表现出更强的逻辑一致性,显著降低了非事实性输出(幻觉)。

关键设计:模型设计侧重于推理效率与准确性的权衡。通过精简参数规模,优化专家路由机制,使得模型在保持高精度抽取的同时,能够以极低的硬件门槛实现自托管,满足企业对数据主权和成本控制的双重需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Olava Extract在合同抽取任务中表现卓越,宏观F1达到0.812,微观F1达到0.842,均优于对比的五种前沿大模型。在成本控制方面,该模型实现了78%至97%的推理成本削减。此外,其极低的幻觉率使其在法律合规性要求极高的场景中,展现出比通用大模型更强的实用价值与可靠性。

🎯 应用场景

该研究适用于法律科技(LegalTech)领域,特别是合同生命周期管理(CLM)、尽职调查自动化及合规性审查。其低成本、高精度的特性使得中小型律所及企业能够部署私有化AI,在保障数据隐私的前提下,大幅提升合同审核效率,降低人工审查的运营风险与成本。

📄 摘要(原文)

This paper evaluates whether a domain trained Small Language Model (SLM) can outperform frontier Large Language Models on structured contract extraction at radically lower cost. We test Olava Extract, a self hosted legal domain Mixture of Experts model, against five frontier models. Olava Extract achieved the strongest aggregate performance in the study, with a macro F1 of 0.812 and a micro F1 of 0.842, while reducing inference cost by 78% to 97% compared with the frontier models tested. It also achieved the highest precision scores, producing fewer hallucinated and unsupported extractions, an important distinction in legal workflows where hallucinations create operational risk and downstream review burden. The findings shows that high performing, human comparable legal AI no longer requires the largest externally hosted models. More broadly, they challenge the assumption that commercially valuable enterprise AI capability must remain tied to ever larger models, massive infrastructure expenditure, and centrally hosted providers.