FinMME: Benchmark Dataset for Financial Multi-Modal Reasoning Evaluation

📄 arXiv: 2505.24714v1 📥 PDF

作者: Junyu Luo, Zhizhuo Kou, Liming Yang, Xiao Luo, Jinsheng Huang, Zhiping Xiao, Jingshu Peng, Chengzhong Liu, Jiaming Ji, Xuanzhe Liu, Sirui Han, Ming Zhang, Yike Guo

分类: cs.CL

发布日期: 2025-05-30

备注: ACL 2025 Main Conference

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

FinMME:金融多模态推理评估基准数据集,填补金融领域多模态评测空白。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 金融多模态 基准数据集 多模态推理 金融领域 大语言模型

📋 核心要点

  1. 现有金融领域缺乏专门的多模态评估数据集,阻碍了金融多模态大语言模型的发展和评估。
  2. FinMME构建了一个高质量、大规模的金融多模态数据集,涵盖多种金融领域和图表类型,用于评估模型在金融领域的推理能力。
  3. 实验表明,即使是GPT-4o等先进模型在FinMME上的表现仍不理想,验证了数据集的挑战性和鲁棒性。

📝 摘要(中文)

近年来,多模态大型语言模型(MLLM)发展迅速。然而,在金融领域,缺乏有效且专业的的多模态评估数据集。为了促进金融领域MLLM的发展,我们推出了FinMME,它包含超过11,000个高质量的金融研究样本,涵盖18个金融领域和6个资产类别,包含10种主要图表类型和21种子类型。我们通过20名标注员和精心设计的验证机制来确保数据质量。此外,我们开发了FinScore,一个包含幻觉惩罚和多维度能力评估的评估系统,以提供公正的评估。大量的实验结果表明,即使是像GPT-4o这样的最先进的模型在FinMME上的表现也不尽如人意,突显了其挑战性。该基准测试表现出很高的鲁棒性,在不同提示下的预测变化保持在1%以下,与现有数据集相比具有更高的可靠性。我们的数据集和评估协议可在https://huggingface.co/datasets/luojunyu/FinMME 和 https://github.com/luo-junyu/FinMME 获取。

🔬 方法详解

问题定义:现有方法缺乏针对金融领域多模态数据的有效评估基准。通用多模态数据集无法充分评估模型在金融领域的专业知识和推理能力。因此,需要一个专门的金融多模态数据集来推动该领域的发展。

核心思路:FinMME的核心思路是构建一个高质量、多样化的金融多模态数据集,涵盖各种金融领域、资产类别和图表类型。通过精心设计的标注和验证机制,确保数据的准确性和可靠性。同时,开发FinScore评估体系,从多个维度评估模型能力,并引入幻觉惩罚,以更全面地评估模型性能。

技术框架:FinMME的构建流程主要包括以下几个阶段: 1. 数据收集:从金融研究报告、新闻文章等来源收集多模态数据,包括文本和图表。 2. 数据标注:由20名专业标注员对数据进行标注,标注内容包括图表类型、关键信息、推理问题等。 3. 数据验证:设计验证机制,确保标注质量和数据一致性。 4. FinScore评估体系:开发包含幻觉惩罚和多维度能力评估的评估系统。 5. 数据集发布:将数据集和评估协议发布在Hugging Face和GitHub上。

关键创新:FinMME的关键创新在于: 1. 它是首个专门针对金融领域的多模态评估数据集。 2. 数据集涵盖了广泛的金融领域、资产类别和图表类型,具有很高的多样性。 3. FinScore评估体系考虑了幻觉问题,并从多个维度评估模型能力,更加全面和公正。 4. 数据集具有很高的鲁棒性,在不同提示下的预测变化很小。

关键设计:FinMME的关键设计包括: 1. 数据标注指南:制定详细的数据标注指南,确保标注员理解标注任务和标准。 2. 验证机制:设计多轮验证机制,包括人工验证和自动化验证,确保数据质量。 3. FinScore评估指标:设计多个评估指标,包括准确率、召回率、F1值等,从不同维度评估模型能力。 4. 幻觉惩罚:引入幻觉惩罚机制,降低模型生成不真实信息的可能性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-4o等最先进的模型在FinMME上的表现也不尽如人意,突显了数据集的挑战性。此外,FinMME在不同提示下的预测变化保持在1%以下,表明其具有很高的鲁棒性,优于现有的多模态数据集。

🎯 应用场景

FinMME可用于评估和提升多模态大语言模型在金融领域的应用能力,例如智能投顾、风险评估、财务报表分析等。该数据集能够帮助研究人员开发更可靠、更专业的金融AI系统,为金融行业提供更智能化的解决方案,并促进金融科技的创新发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have experienced rapid development in recent years. However, in the financial domain, there is a notable lack of effective and specialized multimodal evaluation datasets. To advance the development of MLLMs in the finance domain, we introduce FinMME, encompassing more than 11,000 high-quality financial research samples across 18 financial domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We ensure data quality through 20 annotators and carefully designed validation mechanisms. Additionally, we develop FinScore, an evaluation system incorporating hallucination penalties and multi-dimensional capability assessment to provide an unbiased evaluation. Extensive experimental results demonstrate that even state-of-the-art models like GPT-4o exhibit unsatisfactory performance on FinMME, highlighting its challenging nature. The benchmark exhibits high robustness with prediction variations under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://huggingface.co/datasets/luojunyu/FinMME and https://github.com/luo-junyu/FinMME.