Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines

作者: Akshay Gulati, Kanha Singhania, Tushar Banga, Parth Arora, Anshul Verma, Vaibhav Kumar Singh, Agyapal Digra, Jayant Singh Bisht, Danish Sharma, Varun Singla, Shubh Garg

分类: cs.AI

发布日期: 2026-03-09

备注: 12 pages, 6 Figures, 5 Tables

💡 一句话要点

提出AI金融智能基准AFIB，评估大语言模型在金融分析中的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 金融智能 大语言模型 评估基准 金融分析 投资研究

📋 核心要点

现有大语言模型在金融分析中的应用缺乏系统性的评估框架，难以衡量其金融推理能力。
论文提出AI金融智能基准（AFIB），从事实准确性、完整性、时效性、一致性和失败模式等多维度评估模型。
实验结果表明，SuperInvesting在AFIB基准上表现最佳，尤其在事实准确性和完整性方面，同时幻觉率最低。

📝 摘要（中文）

本文提出了AI金融智能基准（AFIB），这是一个多维度评估框架，旨在评估大语言模型在金融分析方面的能力，涵盖五个维度：事实准确性、分析完整性、数据时效性、模型一致性和失败模式。研究评估了五个AI系统：GPT、Gemini、Perplexity、Claude和SuperInvesting，使用包含95个以上结构化金融分析问题的数据集，这些问题源于真实的股票研究任务。结果表明，不同模型之间的性能存在显著差异。SuperInvesting在此基准测试中取得了最高的综合性能，平均事实准确性得分8.96/10，完整性得分最高，为56.65/70，并且幻觉率在评估的系统中最低。Perplexity等检索导向的系统由于实时信息访问，在数据时效性任务上表现出色，但在分析综合和一致性方面表现较弱。总体而言，结果表明，大语言模型中的金融智能本质上是多维的，将结构化金融数据访问与分析推理能力相结合的系统为复杂的投资研究工作流程提供了最可靠的性能。

🔬 方法详解

问题定义：论文旨在解决如何系统性地评估大语言模型在金融领域的智能水平的问题。现有方法缺乏统一的评估标准，难以客观衡量不同模型在金融分析任务中的表现，尤其是在事实准确性、分析完整性、数据时效性、模型一致性和避免幻觉等方面。

核心思路：论文的核心思路是构建一个多维度的评估基准，即AI金融智能基准（AFIB），该基准包含一系列结构化的金融分析问题，并从多个维度对模型的回答进行评估。通过这种方式，可以更全面、客观地了解不同模型在金融领域的优势和不足。

技术框架：AFIB评估框架包含以下几个主要模块：1) 数据集构建：收集并整理来自真实股票研究任务的金融分析问题，形成结构化的数据集。2) 模型评估：使用AFIB数据集对多个大语言模型进行测试，并记录模型的回答。3) 指标计算：根据模型的回答，计算事实准确性、分析完整性、数据时效性、模型一致性和幻觉率等指标。4) 结果分析：对不同模型的评估结果进行比较分析，找出各模型的优势和不足。

关键创新：AFIB的关键创新在于其多维度的评估方法。与以往只关注单一指标的评估方法不同，AFIB从多个维度对模型的金融智能进行评估，从而更全面、客观地反映模型的真实能力。此外，AFIB的数据集来源于真实的股票研究任务，更贴近实际应用场景。

关键设计：AFIB的关键设计包括：1) 数据集的结构化设计，确保问题具有明确的答案和评估标准。2) 评估指标的选择，涵盖了金融分析任务的关键能力，如事实准确性、分析完整性等。3) 评估流程的标准化，确保评估结果的可重复性和可比性。

🖼️ 关键图片

📊 实验亮点

SuperInvesting在AFIB基准测试中取得了最高的综合性能，平均事实准确性得分8.96/10，完整性得分最高，为56.65/70，并且幻觉率在评估的系统中最低。Perplexity等检索导向的系统在数据时效性任务上表现出色，但分析综合和一致性方面较弱。

🎯 应用场景

该研究成果可应用于金融投资领域，帮助投资者评估和选择合适的AI模型进行投资决策。同时，AFIB基准可以促进大语言模型在金融领域的进一步发展，推动AI技术在金融行业的广泛应用，例如智能投顾、风险管理和量化交易等。

📄 摘要（原文）

Large language models are increasingly used for financial analysis and investment research, yet systematic evaluation of their financial reasoning capabilities remains limited. In this work, we introduce the AI Financial Intelligence Benchmark (AFIB), a multi-dimensional evaluation framework designed to assess financial analysis capabilities across five dimensions: factual accuracy, analytical completeness, data recency, model consistency, and failure patterns. We evaluate five AI systems: GPT, Gemini, Perplexity, Claude, and SuperInvesting, using a dataset of 95+ structured financial analysis questions derived from real-world equity research tasks. The results reveal substantial differences in performance across models. Within this benchmark setting, SuperInvesting achieves the highest aggregate performance, with an average factual accuracy score of 8.96/10 and the highest completeness score of 56.65/70, while also demonstrating the lowest hallucination rate among evaluated systems. Retrieval-oriented systems such as Perplexity perform strongly on data recency tasks due to live information access but exhibit weaker analytical synthesis and consistency. Overall, the results highlight that financial intelligence in large language models is inherently multi-dimensional, and systems that combine structured financial data access with analytical reasoning capabilities provide the most reliable performance for complex investment research workflows.

Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理