Evaluating Large Language Models (LLMs) in Financial NLP: A Comparative Study on Financial Report Analysis
作者: Md Talha Mohsin
分类: cs.CL, cs.AI, cs.CE, cs.HC, q-fin.CP
发布日期: 2025-07-24
备注: 22 Pages, 6 Tables, 7 Figures
💡 一句话要点
对比评估大型语言模型在金融报告分析中的表现,揭示GPT模型的优越性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 金融自然语言处理 财务报告分析 模型评估 10-K报告
📋 核心要点
- 现有金融NLP任务缺乏对主流LLM的系统性对比评估,难以指导实际应用。
- 本研究通过设计领域特定提示,并结合人工和自动评估方法,全面评估LLM在金融报告分析中的性能。
- 实验结果表明,GPT在连贯性、语义对齐和上下文相关性方面表现最佳,优于其他模型。
📝 摘要(中文)
大型语言模型(LLMs)在金融自然语言处理(FinNLP)任务中展现了卓越的能力。然而,对广泛使用的LLMs进行系统性比较的研究仍然不足。鉴于LLMs在金融分析领域的快速发展和日益增长的影响力,本研究对五种领先的LLMs,即GPT、Claude、Perplexity、Gemini和DeepSeek,使用“七巨头”科技公司的10-K文件进行了全面的比较评估。我们创建了一组特定领域的提示,然后使用三种方法评估模型性能:人工标注、自动词汇语义指标(ROUGE、余弦相似度、Jaccard)和模型行为诊断(提示级别方差和跨模型相似性)。结果表明,GPT给出了最连贯、语义对齐和上下文相关的答案;其次是Claude和Perplexity。另一方面,Gemini和DeepSeek具有更大的可变性和更少的一致性。此外,输出的相似性和稳定性因公司和时间而异,表明它们对提示的编写方式和使用的源材料很敏感。
🔬 方法详解
问题定义:论文旨在解决金融NLP领域中,如何系统性地评估和比较不同大型语言模型(LLMs)在金融报告分析任务上的性能这一问题。现有方法缺乏对不同LLM的直接比较,难以确定哪个模型更适合特定金融任务,并且忽略了模型在不同公司和时间段的稳定性问题。
核心思路:论文的核心思路是通过构建特定领域的提示(prompts),并结合人工标注、自动指标和模型行为诊断,对多个主流LLMs在分析10-K财务报告时的表现进行全面评估。通过多维度评估,揭示不同模型在连贯性、语义对齐、上下文相关性以及稳定性等方面的差异。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集“七巨头”科技公司的10-K财务报告。2) 提示工程:设计一组领域特定的提示,用于引导LLMs进行财务报告分析。3) 模型推理:使用GPT、Claude、Perplexity、Gemini和DeepSeek等LLMs对10-K报告进行推理,生成答案。4) 性能评估:采用人工标注、自动词汇语义指标(ROUGE、余弦相似度、Jaccard)和模型行为诊断(提示级别方差和跨模型相似性)三种方法评估模型性能。
关键创新:该研究的关键创新在于:1) 针对金融报告分析任务,设计了一套领域特定的提示,更有效地激发LLMs的金融知识。2) 结合人工标注和自动指标,对LLMs的性能进行多维度评估,避免了单一指标的局限性。3) 通过模型行为诊断,分析了LLMs在不同公司和时间段的稳定性,揭示了模型对提示和源材料的敏感性。
关键设计:在提示工程方面,论文设计了能够有效引导LLM理解和分析财务报告的提示。在性能评估方面,采用了ROUGE、余弦相似度和Jaccard等自动指标,以及人工标注来评估模型输出的质量。模型行为诊断则关注不同提示下模型输出的方差,以及不同模型输出之间的相似性,以评估模型的稳定性和一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT在金融报告分析任务中表现最佳,在连贯性、语义对齐和上下文相关性方面均优于其他模型。Claude和Perplexity表现次之,而Gemini和DeepSeek则表现出更大的可变性和更少的一致性。此外,研究还发现模型输出的相似性和稳定性因公司和时间而异,表明模型对提示和源材料的敏感性。
🎯 应用场景
该研究成果可应用于金融分析、投资决策、风险管理等领域。通过选择合适的LLM,可以提高财务报告分析的效率和准确性,辅助投资者做出更明智的决策。此外,该研究也为LLM在金融领域的应用提供了参考,有助于推动金融科技的发展。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated remarkable capabilities across a wide variety of Financial Natural Language Processing (FinNLP) tasks. However, systematic comparisons among widely used LLMs remain underexplored. Given the rapid advancement and growing influence of LLMs in financial analysis, this study conducts a thorough comparative evaluation of five leading LLMs, GPT, Claude, Perplexity, Gemini and DeepSeek, using 10-K filings from the 'Magnificent Seven' technology companies. We create a set of domain-specific prompts and then use three methodologies to evaluate model performance: human annotation, automated lexical-semantic metrics (ROUGE, Cosine Similarity, Jaccard), and model behavior diagnostics (prompt-level variance and across-model similarity). The results show that GPT gives the most coherent, semantically aligned, and contextually relevant answers; followed by Claude and Perplexity. Gemini and DeepSeek, on the other hand, have more variability and less agreement. Also, the similarity and stability of outputs change from company to company and over time, showing that they are sensitive to how prompts are written and what source material is used.