FinVerBench: Benchmark Validity and Calibration in Large Language Model Financial Statement Verification
作者: Silu Panda
分类: cs.AI
发布日期: 2026-05-28
备注: 37 pages, 9 figures
💡 一句话要点
FinVerBench:构建金融报表验证基准,评估大语言模型在财务一致性判断中的有效性和校准性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 金融报表验证 大语言模型 基准测试 财务一致性 错误分类 校准判断 数值渲染
📋 核心要点
- 现有方法难以有效评估大语言模型在金融报表验证中处理复杂数值关系和不完全信息的能力。
- FinVerBench通过构建包含多种错误类型的金融报表验证基准,并结合引导式提示,来评估模型的判断能力。
- 实验表明,模型的性能受数值渲染方式和提示策略影响显著,强调了校准判断的重要性。
📝 摘要(中文)
本文提出了FinVerBench,一个用于金融报表验证的基准和有效性研究,旨在评估大语言模型判断公司财务报表数值一致性的能力。FinVerBench基于43家标普500公司的SEC 10-K XBRL文件构建,并定义了一个四类错误分类体系,涵盖算术错误、跨报表关联错误、同比错误和幅度扰动。论文评估了15个当前的大语言模型,并报告了14个完整的运行结果;由于40/108个网关调用失败,Gemini 2.5 Pro的运行结果被排除在主要比较之外。所有二元指标都排除了未确定的阳性实例,这些实例的扰动行项目未被渲染,留下了一个包含105个实例的可观察诊断子集(43个干净的,62个注入错误的)。在未四舍五入的诊断子集上,使用原始的引导式检查表提示时,14个完整的大语言模型运行中有9个在干净的报表上产生了95-100%的假阳性,而一个运行实现了0%的观察到的假阳性。基准渲染选择会显著影响测量的召回率:在同一可观察子集的真实四舍五入变体上,校准模型的召回率为79.0%,观察到的假阳性率为0%,而未四舍五入的诊断变体的召回率为100.0%。这些结果支持了构建有效性的结论,而不是最终的排行榜:金融报表验证不仅仅是算术检测,而是在不完全可观察性、提示诱导的假设和真实的数值渲染下的校准判断。FinVerBench和所有代码都是公开可用的。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大语言模型在金融报表验证任务中的能力。现有方法通常侧重于简单的算术检测,忽略了实际财务报表验证中存在的复杂数值关系、不完全信息以及提示策略的影响。这些因素导致现有评估方法无法准确反映模型在真实场景下的性能。
核心思路:论文的核心思路是构建一个更具代表性和挑战性的金融报表验证基准FinVerBench,该基准不仅包含多种类型的错误(算术、跨报表关联、同比、幅度扰动),还考虑了数值渲染方式(四舍五入)和提示策略对模型性能的影响。通过分析模型在不同条件下的表现,可以更全面地评估其在金融报表验证中的有效性和校准性。
技术框架:FinVerBench的构建流程主要包括以下几个阶段:1) 数据收集:从SEC 10-K XBRL文件中收集43家标普500公司的财务报表数据。2) 错误注入:定义四种类型的错误,并根据这些错误类型对原始财务报表进行扰动,生成包含错误的报表。3) 数据集划分:将数据集划分为干净的报表和包含错误的报表,并进一步划分为可观察诊断子集和未四舍五入/四舍五入变体。4) 模型评估:使用不同的提示策略(如引导式检查表)评估大语言模型在FinVerBench上的性能。
关键创新:论文的关键创新在于构建了一个更贴近实际应用场景的金融报表验证基准FinVerBench。该基准考虑了多种类型的错误、数值渲染方式和提示策略对模型性能的影响,从而能够更全面地评估大语言模型在金融报表验证中的能力。此外,论文还强调了校准判断的重要性,即模型不仅需要能够检测错误,还需要能够根据不完全信息和提示诱导的假设做出合理的判断。
关键设计:在错误注入方面,论文定义了四种类型的错误,并根据这些错误类型对原始财务报表进行扰动,以模拟实际财务报表中可能出现的错误。在数值渲染方面,论文考虑了四舍五入对模型性能的影响,并构建了未四舍五入和四舍五入两种变体。在提示策略方面,论文使用了引导式检查表提示,以引导模型进行更有效的验证。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大语言模型在未四舍五入的诊断子集上容易产生高假阳性率(95-100%),但在真实的四舍五入变体上,校准模型的召回率可达79.0%,且观察到的假阳性率为0%。这表明基准渲染选择对模型性能影响显著,强调了在实际应用中考虑数值渲染方式的重要性。
🎯 应用场景
FinVerBench可应用于评估和提升大语言模型在金融领域的应用能力,例如自动审计、财务风险评估和投资决策支持。通过更准确地验证财务报表,可以减少财务欺诈和错误,提高财务信息的可靠性,并为投资者提供更可靠的决策依据。该研究为未来开发更智能、更可靠的金融AI系统奠定了基础。
📄 摘要(原文)
We introduce FinVerBench, a benchmark and validity study for financial statement verification: determining whether a set of corporate financial statements is numerically consistent from the information shown to the model. FinVerBench is built from SEC 10-K XBRL filings for 43 S&P 500 companies and defines a four-category error taxonomy covering arithmetic, cross-statement linkage, year-over-year, and magnitude perturbations. We attempt fifteen contemporary LLM evaluations and report fourteen complete runs; a Gemini 2.5 Pro run is excluded from the main comparison because 40/108 gateway calls failed. All binary metrics exclude underdetermined positive instances whose perturbed line item is not rendered, leaving a 105-instance observable diagnostic subset (43 clean, 62 error-injected). Under the original guided-checklist prompt on the unrounded diagnostic subset, nine of fourteen complete LLM runs produce 95-100% false positives on clean statements, while one run achieves 0% observed false positives. Benchmark rendering choices materially affect measured recall: on a realistic rounded variant of the same observable subset, the calibrated model's recall is 79.0% with 0% observed FPR, compared with 100.0% recall on the unrounded diagnostic variant. These results support a construct-validity conclusion rather than a final leaderboard: financial statement verification is not merely arithmetic detection, but calibrated judgment under incomplete observability, prompt-induced assumptions, and realistic numerical rendering. FinVerBench and all code are publicly available.