FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

作者: Dmitry Stanishevskii, Nini Kamkia, Alexey Khoroshilov, Dmitry Zmitrovich, Denis Kokosinskii, Zhirayr Hayrapetyan, Andrei Kalmykov

分类: cs.CL

发布日期: 2026-05-14

备注: 21 pages, 10 tables, 2 figures

💡 一句话要点

FINESSE-Bench：用于评估大语言模型金融领域知识和技术分析能力的分层基准套件

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 金融领域 基准测试 知识评估 技术分析

📋 核心要点

现有金融领域LLM评估benchmark主要集中于金融报告问答，缺乏对专业难度等级的细致划分和从基础到专家级推理的全面评估。
FINESSE-Bench通过构建包含专业认证考试题、交易任务和奥林匹克竞赛题的分层基准，实现对LLM金融能力的更全面评估。
该benchmark包含3993个问题，并设计了统一的评估协议，涵盖多项选择、数值答案和开放式回答，并采用LLM-as-judge进行自动评分。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地应用于金融分析、报告、投资决策支持、风险管理、合规和专业培训。然而，对其在金融领域的领域能力进行稳健的评估仍然不完整。像FinQA、ConvFinQA和TAT-QA等广泛使用的开放基准在推进金融问答和数值推理方面发挥了重要作用，但它们主要侧重于对金融报告的问答，并没有提供明确的专业难度等级。包括FinanceBench、PIXIU、FinBen和FLaME在内的更广泛的资源扩展了金融任务的覆盖范围，但评估从基础知识到专家级金融推理的过渡的问题仍然存在。本文提出了FINESSE-Bench，一套包含3,993个问题的专业基准，用于对LLMs的金融能力进行分层评估。FINESSE-Bench结合了受专业认证（类似CFA的1-3级，类似CMT的2级和类似CFTe的1级）启发的面向考试的数据集、应用交易任务集合和一个俄语奥林匹克基准。这种设计能够评估领域广度、难度增加时的性能下降、解决计算任务的能力以及模型在专业金融领域的行为。同时描述了一个统一的评估协议，涵盖多项选择题、数值答案和简短的开放式回答，以及基于LLM-as-judge范例的自由格式答案的自动评分方案。FINESSE-Bench旨在作为现有开放金融基准的补充，并作为对大型语言模型中与专业相关的金融能力进行更实质性评估的工具。

🔬 方法详解

问题定义：现有金融领域的大语言模型评估基准主要集中在金融报告的问答，缺乏对专业知识难度等级的明确分层，难以评估模型从基础知识到专家级金融推理的过渡能力。此外，现有基准在评估模型解决计算任务的能力以及在专业金融领域的行为方面存在不足。

核心思路：FINESSE-Bench的核心思路是构建一个分层的基准套件，该套件包含不同难度级别的金融知识和技能评估任务，从而能够更全面地评估大语言模型在金融领域的专业能力。通过结合专业认证考试题、应用交易任务和奥林匹克竞赛题，可以覆盖更广泛的金融知识领域，并评估模型在不同难度级别下的表现。

技术框架：FINESSE-Bench包含以下几个主要组成部分： 1. 考试导向数据集：模拟CFA、CMT和CFTe等专业认证考试的题目，涵盖不同难度级别。 2. 应用交易任务集合：包含实际的交易场景和任务，用于评估模型在实际应用中的表现。 3. 俄语奥林匹克基准：包含俄语的金融奥林匹克竞赛题目，用于评估模型的多语言能力。 4. 统一评估协议：涵盖多项选择题、数值答案和简短的开放式回答，并采用LLM-as-judge进行自动评分。

关键创新：FINESSE-Bench的关键创新在于其分层结构和对专业金融知识的全面覆盖。与现有基准相比，FINESSE-Bench能够更细致地评估模型在不同难度级别下的表现，并更全面地评估模型在专业金融领域的知识和技能。此外，采用LLM-as-judge进行自动评分也是一个创新点，可以提高评估的效率和客观性。

关键设计：FINESSE-Bench的关键设计包括： 1. 难度分层：根据专业认证考试的级别对题目进行难度分层，确保不同难度级别的题目能够区分模型的不同能力。 2. 任务多样性：包含考试题、交易任务和竞赛题等多种类型的任务，以覆盖更广泛的金融知识领域。 3. 评估指标：采用准确率、F1值等指标评估模型的表现，并根据任务类型选择合适的评估指标。 4. LLM-as-judge：使用大型语言模型作为裁判，对开放式回答进行自动评分，提高评估的效率和客观性。

🖼️ 关键图片

📊 实验亮点

FINESSE-Bench包含3993个问题，涵盖CFA、CMT、CFTe等专业认证考试的题目，以及应用交易任务和俄语奥林匹克竞赛题。该基准设计了统一的评估协议，并采用LLM-as-judge进行自动评分，能够更全面、更高效地评估大语言模型在金融领域的专业能力。

🎯 应用场景

FINESSE-Bench可用于评估和比较不同大语言模型在金融领域的专业能力，帮助研究人员和从业者选择合适的模型用于金融分析、报告生成、投资决策支持、风险管理和合规等任务。该基准还有助于推动金融领域大语言模型的研究和发展，促进更智能、更可靠的金融应用。

📄 摘要（原文）

Large language models (LLMs) are increasingly being applied to financial analysis, reporting, investment decision support, risk management, compliance, and professional training. However, robust evaluation of their domain competence in finance remains incomplete. Widely used open benchmarks such as FinQA, ConvFinQA, and TAT-QA have played an important role in advancing financial question answering and numerical reasoning, but they focus primarily on question answering over financial reports and do not provide an explicit hierarchy of professional difficulty. Broader resources, including FinanceBench, PIXIU, FinBen, and FLaME, expand the coverage of financial tasks, yet the problem of evaluating the transition from foundational knowledge to expert-level financial reasoning remains open. In this work, we present FINESSE-Bench, a suite of eight specialized benchmarks comprising 3,993 questions for hierarchical evaluation of financial competencies in LLMs. FINESSE-Bench combines exam-oriented datasets inspired by professional certifications (CFA-like Levels 1-3, CMT-like Level 2, and CFTe-like Level 1), applied trading task collections, and a Russian-language olympiad benchmark. This design enables evaluation of domain breadth, performance degradation as difficulty increases, the ability to solve computational tasks, and model behavior in specialized financial domains. We also describe a unified evaluation protocol covering multiple-choice questions, numerical answers, and short open-ended responses, together with an automated scoring scheme for freeform answers based on the LLM-as-judge paradigm. FINESSE-Bench is intended both as a complement to existing open financial benchmarks and as a tool for more substantive evaluation of professionally relevant financial competencies in large language models.

FINESSE-Bench: A Hierarchical Benchmark Suite for Financial Domain Knowledge and Technical Analysis in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理