Assessing Consistency and Reproducibility in the Outputs of Large Language Models: Evidence Across Diverse Finance and Accounting Tasks

📄 arXiv: 2503.16974v4 📥 PDF

作者: Julian Junyan Wang, Victor Xiaoqi Wang

分类: q-fin.GN, cs.AI, cs.CE, cs.CL, cs.LG

发布日期: 2025-03-21 (更新: 2025-09-13)

备注: 76 pages, 20 tables, 12 figures


💡 一句话要点

评估大语言模型在金融和会计任务中的一致性和可重复性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 一致性 可重复性 金融 会计

📋 核心要点

  1. 现有研究缺乏对大语言模型在金融和会计领域应用的一致性和可重复性的全面评估,这限制了其可靠应用。
  2. 通过大量实验,评估不同LLM在多个金融任务中的一致性,并探索提高一致性的聚合策略。
  3. 实验表明,LLM在简单任务中表现出高一致性,但复杂任务差异较大,且聚合策略能有效提高一致性。

📝 摘要(中文)

本研究首次全面评估了大语言模型(LLM)在金融和会计研究中输出的一致性和可重复性。我们通过对五个常见任务(分类、情感分析、摘要、文本生成和预测)进行50次独立运行的大量实验,评估了LLM在给定相同输入时产生输出的一致性。我们使用三个OpenAI模型(GPT-3.5-turbo、GPT-4o-mini和GPT-4o),从不同的金融来源文本和数据中生成了超过340万个输出,涵盖MD&A、FOMC声明、金融新闻文章、盈利电话会议记录和财务报表。我们的研究结果表明,一致性具有显著的任务依赖性,二元分类和情感分析几乎实现了完美的可重复性,而复杂任务则表现出更大的可变性。更先进的模型并没有始终如一地表现出更好的一致性和可重复性,而是出现了特定于任务的模式。LLM在一致性方面显著优于专家人工标注者,即使在人类专家存在显著分歧的情况下也能保持高度一致。我们进一步发现,跨3-5次运行的简单聚合策略可以显著提高一致性。我们还发现,当使用较新的模型时,聚合可能带来提高情感分析准确性的额外好处。模拟分析表明,尽管LLM输出存在可衡量的不一致性,但下游统计推断仍然非常稳健。这些发现解决了我们所说的“G-hacking”问题,即有选择地报告多次生成式AI运行中的有利结果,表明这种风险对于金融和会计任务来说相对较低。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)在金融和会计领域应用时,其输出结果的一致性和可重复性问题。现有方法缺乏对LLM在这些特定领域表现的系统性评估,导致用户难以信任和依赖LLM的生成结果。此外,选择性报告多次运行中“有利”结果的“G-hacking”行为也引发了对LLM应用可靠性的担忧。

核心思路:论文的核心思路是通过大规模实验,量化评估不同LLM在不同金融和会计任务中的一致性和可重复性。通过分析模型输出的方差,揭示任务难度、模型选择和聚合策略对一致性的影响。此外,论文还通过模拟分析,评估LLM输出的不一致性对下游统计推断的影响。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:收集涵盖MD&A、FOMC声明、金融新闻文章、盈利电话会议记录和财务报表等多种金融文本数据。2) 任务定义:定义分类、情感分析、摘要、文本生成和预测等五种常见的金融和会计任务。3) 模型选择:选择GPT-3.5-turbo、GPT-4o-mini和GPT-4o等三个OpenAI模型作为实验对象。4) 实验设计:对每个任务进行50次独立运行,记录LLM的输出结果。5) 评估指标:采用一致性指标(如准确率、F1值等)和可重复性指标(如方差、标准差等)评估LLM的性能。6) 聚合策略:探索跨多次运行的简单聚合策略(如投票、平均等)对提高一致性的效果。7) 模拟分析:通过模拟实验,评估LLM输出的不一致性对下游统计推断的影响。

关键创新:论文最重要的技术创新点在于对LLM在金融和会计领域的一致性和可重复性进行了首次全面评估。与现有研究相比,论文不仅关注LLM的准确性,更关注其输出结果的稳定性。此外,论文还提出了通过聚合策略提高一致性的方法,并评估了LLM输出的不一致性对下游统计推断的影响。

关键设计:论文的关键设计包括:1) 任务选择:选择具有代表性的金融和会计任务,以覆盖LLM在这些领域的常见应用场景。2) 模型选择:选择不同版本的GPT模型,以评估模型升级对一致性的影响。3) 实验次数:进行50次独立运行,以获得足够的数据量进行统计分析。4) 评估指标:采用多种一致性和可重复性指标,以全面评估LLM的性能。5) 聚合策略:探索简单的聚合策略,以降低计算成本并提高实用性。

📊 实验亮点

实验结果表明,LLM在二元分类和情感分析等简单任务中表现出近乎完美的可重复性,而在复杂任务中则存在较大差异。更先进的模型并不总是表现出更好的一致性。通过3-5次运行的简单聚合策略可以显著提高一致性。模拟分析表明,LLM输出的不一致性对下游统计推断的影响相对较小。例如,情感分析任务中,使用较新模型时,聚合策略可能带来准确率的提升。

🎯 应用场景

该研究成果可应用于金融风险管理、投资决策、财务报表分析、审计等领域。通过了解LLM在不同任务中的一致性和可重复性,用户可以更明智地选择合适的模型和策略,提高决策的可靠性。研究结果还有助于监管机构评估LLM在金融领域的应用风险,并制定相应的监管政策。未来,该研究可扩展到其他领域,为LLM的可靠应用提供更广泛的指导。

📄 摘要(原文)

This study provides the first comprehensive assessment of consistency and reproducibility in Large Language Model (LLM) outputs in finance and accounting research. We evaluate how consistently LLMs produce outputs given identical inputs through extensive experimentation with 50 independent runs across five common tasks: classification, sentiment analysis, summarization, text generation, and prediction. Using three OpenAI models (GPT-3.5-turbo, GPT-4o-mini, and GPT-4o), we generate over 3.4 million outputs from diverse financial source texts and data, covering MD&As, FOMC statements, finance news articles, earnings call transcripts, and financial statements. Our findings reveal substantial but task-dependent consistency, with binary classification and sentiment analysis achieving near-perfect reproducibility, while complex tasks show greater variability. More advanced models do not consistently demonstrate better consistency and reproducibility, with task-specific patterns emerging. LLMs significantly outperform expert human annotators in consistency and maintain high agreement even where human experts significantly disagree. We further find that simple aggregation strategies across 3-5 runs dramatically improve consistency. We also find that aggregation may come with an additional benefit of improved accuracy for sentiment analysis when using newer models. Simulation analysis reveals that despite measurable inconsistency in LLM outputs, downstream statistical inferences remain remarkably robust. These findings address concerns about what we term "G-hacking," the selective reporting of favorable outcomes from multiple generative AI runs, by demonstrating that such risks are relatively low for finance and accounting tasks.