Towards Automated Regulatory Compliance Verification in Financial Auditing with Large Language Models

📄 arXiv: 2507.16642v1 📥 PDF

作者: Armin Berger, Lars Hillebrand, David Leonhard, Tobias Deußer, Thiago Bell Felix de Oliveira, Tim Dilmaghani, Mohamed Khaled, Bernd Kliem, Rüdiger Loitz, Christian Bauckhage, Rafet Sifa

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-22

备注: Accepted and published at BigData 2023, 10 pages, 3 figures, 5 tables

期刊: 2023 IEEE International Conference on Big Data (BigData), Sorrento, Italy, 2023, pp. 4626-4635

DOI: 10.1109/BigData59044.2023.10386518


💡 一句话要点

利用大型语言模型实现金融审计中监管合规的自动化验证

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 金融审计 监管合规 自动化验证 Llama-2 GPT-4 财务报告 合规性检测

📋 核心要点

  1. 现有AI审计系统推荐相关文本,但无法验证其是否符合法律规定,存在局限性。
  2. 论文探索利用大型语言模型(LLM)自动验证财务报告的监管合规性。
  3. 实验表明,Llama-2在检测不合规方面优于专有模型,GPT-4在非英语场景更优。

📝 摘要(中文)

金融文件的审计历来是一项劳动密集型的工作,目前正处于变革的前沿。人工智能驱动的解决方案通过推荐财务报告中的相关文本段落,使其与会计准则的法律要求相一致,从而简化了这一流程。然而,一个明显的局限性仍然存在:这些系统通常无法验证所推荐的摘录是否确实符合特定的法律规定。因此,本文探讨了公开可用的大型语言模型(LLM)在不同模型配置下,在监管合规领域的效率。我们特别强调比较最先进的开源LLM(如Llama-2)与OpenAI的GPT模型等专有LLM。该比较分析利用了普华永道(PwC)德国提供的两个定制数据集。我们发现,开源Llama-2 700亿参数模型在检测不合规或真阴性事件方面表现出色,超过了所有专有模型。然而,GPT-4等专有模型在各种场景中表现最佳,尤其是在非英语环境中。

🔬 方法详解

问题定义:当前金融审计依赖人工,效率低下。现有AI系统能推荐相关文本,但无法验证其是否符合会计准则的法律要求,存在合规性验证的痛点。需要一种自动化方法来验证财务报告是否符合监管要求。

核心思路:利用大型语言模型(LLM)的文本理解和推理能力,直接判断财务报告中的文本段落是否符合特定的法律法规。通过比较不同LLM在合规性验证任务上的表现,找到最适合该任务的模型。

技术框架:该研究主要是一个实验性的评估框架,核心是使用不同的LLM(包括开源的Llama-2和专有的GPT模型)对财务报告文本进行合规性验证。研究使用了普华永道提供的两个定制数据集,用于训练和评估LLM的性能。没有明确的训练或微调过程,主要是零样本或少样本的推理。

关键创新:该研究的关键创新在于首次系统性地评估了大型语言模型在金融审计监管合规性验证任务中的潜力。通过对比开源和专有LLM,揭示了不同模型在特定任务上的优势和劣势。特别指出Llama-2在检测不合规案例上的优异表现,这与通常认为的专有模型更优的认知有所不同。

关键设计:研究的关键设计在于数据集的选择和评估指标。使用了普华永道提供的真实财务报告数据,保证了研究的实际意义。评估指标侧重于合规性验证的准确率,特别是对不合规案例的检测能力。没有详细的网络结构或损失函数等技术细节,因为研究重点在于评估现有LLM的性能。

📊 实验亮点

实验结果表明,开源的Llama-2 700亿参数模型在检测不合规或真阴性事件方面表现出色,超过了所有专有模型。GPT-4等专有模型在各种场景中表现最佳,尤其是在非英语环境中。该研究揭示了开源LLM在特定任务上的潜力,挑战了专有模型在所有场景下都更优的传统认知。

🎯 应用场景

该研究成果可应用于金融审计领域,实现财务报告监管合规的自动化验证,降低审计成本,提高审计效率。未来可扩展到其他合规性要求高的领域,如医疗、法律等,具有广泛的应用前景和实际价值。

📄 摘要(原文)

The auditing of financial documents, historically a labor-intensive process, stands on the precipice of transformation. AI-driven solutions have made inroads into streamlining this process by recommending pertinent text passages from financial reports to align with the legal requirements of accounting standards. However, a glaring limitation remains: these systems commonly fall short in verifying if the recommended excerpts indeed comply with the specific legal mandates. Hence, in this paper, we probe the efficiency of publicly available Large Language Models (LLMs) in the realm of regulatory compliance across different model configurations. We place particular emphasis on comparing cutting-edge open-source LLMs, such as Llama-2, with their proprietary counterparts like OpenAI's GPT models. This comparative analysis leverages two custom datasets provided by our partner PricewaterhouseCoopers (PwC) Germany. We find that the open-source Llama-2 70 billion model demonstrates outstanding performance in detecting non-compliance or true negative occurrences, beating all their proprietary counterparts. Nevertheless, proprietary models such as GPT-4 perform the best in a broad variety of scenarios, particularly in non-English contexts.