Better Bill GPT: Comparing Large Language Models against Legal Invoice Reviewers

作者: Nick Whitehouse, Nicole Lincoln, Stephanie Yiu, Lizzie Catterson, Rivindu Perera

分类: cs.CL

发布日期: 2025-04-02

💡 一句话要点

首个实证研究：大型语言模型在法律发票审核中全面超越人类专家

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 法律发票审核 法律支出管理 自然语言处理 自动化 人工智能 成本效益 合规性

📋 核心要点

法律发票审核耗时费力且不一致，传统方法效率低下，亟需更优解决方案。
利用大型语言模型（LLM）进行法律发票审核，旨在提高效率、降低成本并提升准确性。
实验表明，LLM在准确率、速度和成本效益方面均优于人类审核员，具有显著优势。

📝 摘要（中文）

本研究首次对大型语言模型（LLM）与人工发票审核员（包括初级律师、资深律师和法律运营专业人员）进行了实证比较，评估了它们的准确性、速度和成本效益。通过将最先进的LLM与法律专家设定的标准答案进行基准测试，研究结果表明LLM在各项指标上均显著优于人类。在发票批准决策中，LLM的准确率高达92%，超过了资深律师72%的上限。在细粒度层面，LLM在线条项目分类中占据主导地位，最佳模型的F1分数达到81%，而表现最好的人工组仅为43%。速度比较更为显著，律师平均每张发票耗时194至316秒，而LLM仅需3.6秒即可完成审核。在成本方面，AI将审核费用降低了99.97%，将发票处理成本从人工审核的平均每张4.27美元降至几美分。这些结果突显了AI在法律支出管理中不断演变的角色。随着律师事务所和公司法务部门在效率方面面临挑战，这项研究预示着一场巨大的转变：LLM驱动的法律支出管理时代已经到来。未来的挑战不是AI能否像人工审核员一样出色，而是法律团队将如何战略性地整合AI，在自动化和人工判断之间取得平衡。

🔬 方法详解

问题定义：论文旨在解决法律发票审核过程中人工审核效率低、成本高、一致性差的问题。现有方法依赖人工逐行审查，耗费大量时间和人力资源，且容易出现人为错误和偏差。

核心思路：论文的核心思路是利用大型语言模型（LLM）强大的自然语言处理能力，自动化法律发票审核流程。LLM能够理解发票内容，识别违规项目，并做出批准或拒绝的决策，从而提高审核效率和准确性。

技术框架：论文采用了一种基于LLM的法律发票审核框架，该框架包含以下主要阶段：1) 数据准备：收集和标注法律发票数据，构建用于训练和评估LLM的数据集。2) 模型训练：使用标注数据训练LLM，使其能够理解法律发票内容并做出审核决策。3) 模型评估：使用测试数据集评估LLM的性能，包括准确率、速度和成本效益。4) 模型部署：将训练好的LLM部署到实际应用中，自动化法律发票审核流程。

关键创新：论文的关键创新在于首次将LLM应用于法律发票审核领域，并进行了全面的实证研究。研究结果表明，LLM在准确率、速度和成本效益方面均优于人类审核员，证明了LLM在法律领域的巨大潜力。

关键设计：论文使用了多种LLM模型进行实验，包括GPT-3、GPT-4等。针对法律发票审核的特点，论文可能采用了特定的提示工程（Prompt Engineering）技术，优化LLM的输入，提高审核准确率。此外，论文还可能设计了特定的损失函数，用于训练LLM，使其能够更好地识别违规项目。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在发票批准决策中的准确率高达92%，超过了资深律师的72%。在细粒度层面，LLM在线条项目分类中的F1分数达到81%，而表现最好的人工组仅为43%。LLM的审核速度远超人类，平均每张发票耗时仅3.6秒，而律师则需要194至316秒。AI审核成本仅为人工审核的0.03%。

🎯 应用场景

该研究成果可广泛应用于律师事务所、公司法务部门等需要进行法律支出管理的机构。通过自动化发票审核流程，可以显著降低成本、提高效率，并减少人为错误。未来，该技术还可扩展到其他法律领域，如合同审查、法律研究等，助力法律行业的智能化转型。

📄 摘要（原文）

Legal invoice review is a costly, inconsistent, and time-consuming process, traditionally performed by Legal Operations, Lawyers or Billing Specialists who scrutinise billing compliance line by line. This study presents the first empirical comparison of Large Language Models (LLMs) against human invoice reviewers - Early-Career Lawyers, Experienced Lawyers, and Legal Operations Professionals-assessing their accuracy, speed, and cost-effectiveness. Benchmarking state-of-the-art LLMs against a ground truth set by expert legal professionals, our empirically substantiated findings reveal that LLMs decisively outperform humans across every metric. In invoice approval decisions, LLMs achieve up to 92% accuracy, surpassing the 72% ceiling set by experienced lawyers. On a granular level, LLMs dominate line-item classification, with top models reaching F-scores of 81%, compared to just 43% for the best-performing human group. Speed comparisons are even more striking - while lawyers take 194 to 316 seconds per invoice, LLMs are capable of completing reviews in as fast as 3.6 seconds. And cost? AI slashes review expenses by 99.97%, reducing invoice processing costs from an average of $4.27 per invoice for human invoice reviewers to mere cents. These results highlight the evolving role of AI in legal spend management. As law firms and corporate legal departments struggle with inefficiencies, this study signals a seismic shift: The era of LLM-powered legal spend management is not on the horizon, it has arrived. The challenge ahead is not whether AI can perform as well as human reviewers, but how legal teams will strategically incorporate it, balancing automation with human discretion.

Better Bill GPT: Comparing Large Language Models against Legal Invoice Reviewers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理