FinMMDocR: Benchmarking Financial Multimodal Reasoning with Scenario Awareness, Document Understanding, and Multi-Step Computation

📄 arXiv: 2512.24903v1 📥 PDF

作者: Zichen Tang, Haihong E, Rongjin Li, Jiacheng Liu, Linwei Jia, Zhuodi Hao, Zhongjun Yang, Yuanze Li, Haolin Tian, Xinyi Hu, Peizhi Zhao, Yuan Liu, Zhengyu Wang, Xianghe Wang, Yiling Huang, Xueyuan Lin, Ruofei Bai, Zijian Xie, Qian Huang, Ruining Cao, Haocheng Gao

分类: cs.CV, cs.CE

发布日期: 2025-12-31

备注: Accepted by AAAI-26 Main Track


💡 一句话要点

FinMMDocR:提出金融多模态推理基准,关注场景感知、文档理解和多步计算。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 金融多模态推理 大型语言模型 场景感知 文档理解 多步计算 基准数据集 检索增强生成

📋 核心要点

  1. 现有金融多模态推理基准缺乏对隐式金融场景的建模,文档深度和广度不足,推理步骤较少,难以评估模型的真实能力。
  2. FinMMDocR通过引入场景感知、增加文档复杂度和要求多步计算,构建更贴近实际金融场景的基准数据集。
  3. 实验表明,现有最佳MLLM在FinMMDocR上表现仍有提升空间,且不同RAG方法性能差异显著,为未来研究提供了方向。

📝 摘要(中文)

我们提出了FinMMDocR,这是一个新的双语多模态基准,用于评估多模态大型语言模型(MLLM)在真实金融数值推理方面的能力。与现有基准相比,我们的工作有三个主要进展。(1) 场景感知:在1200个专家标注的问题中,57.9%的问题融入了12种隐式金融场景(例如,投资组合管理),挑战模型基于假设执行专家级别的推理;(2) 文档理解:837篇中文/英文文档涵盖9种类型(例如,公司研究),平均50.8页,包含丰富的视觉元素,在金融文档的广度和深度上都显著超过现有基准;(3) 多步计算:问题平均需要11步推理(5.3步提取+5.7步计算),其中65.0%的问题需要跨页证据(平均2.4页)。性能最佳的MLLM仅达到58.0%的准确率,并且不同的检索增强生成(RAG)方法在该任务上表现出显著的性能差异。我们期望FinMMDocR能够推动MLLM和增强推理方法在真实场景中复杂多模态推理任务上的改进。

🔬 方法详解

问题定义:论文旨在解决现有金融多模态推理基准的不足,具体来说,现有基准缺乏对金融场景的建模,文档理解的深度和广度不够,推理计算的步骤较少,难以全面评估MLLM在真实金融场景下的推理能力。现有方法的痛点在于无法有效评估模型在复杂金融文档中进行多步推理和场景感知的能力。

核心思路:论文的核心思路是构建一个更具挑战性和真实性的金融多模态推理基准,通过引入隐式金融场景、增加文档的复杂度和长度、以及要求多步计算,来更全面地评估MLLM的推理能力。这样设计的目的是为了更好地模拟真实金融分析师的工作流程,并推动模型在实际应用中的发展。

技术框架:FinMMDocR基准数据集的构建主要包含以下几个阶段:1) 数据收集:收集涵盖多种金融文档类型(如公司研究报告、财务报表等)的中文和英文文档;2) 问题标注:由金融专家对文档进行标注,生成包含隐式金融场景、需要多步计算的问题;3) 数据验证:对标注数据进行验证,确保数据的质量和一致性。整体流程旨在构建一个高质量、高难度的金融多模态推理基准。

关键创新:FinMMDocR的关键创新在于三个方面:1) 场景感知:引入了12种隐式金融场景,要求模型在推理过程中考虑这些场景的影响;2) 文档理解:使用了更长、更复杂的金融文档,包含丰富的视觉元素,挑战模型的文档理解能力;3) 多步计算:要求模型进行多步推理和计算,模拟真实的金融分析过程。这些创新使得FinMMDocR更贴近实际应用,更能有效地评估MLLM的推理能力。

关键设计:在数据标注方面,论文设计了详细的标注指南,确保标注的一致性和准确性。在问题设计方面,论文考虑了不同类型的金融场景和计算需求,设计了多样化的推理问题。此外,论文还对标注数据进行了多轮验证,以确保数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,目前性能最佳的MLLM在FinMMDocR上的准确率仅为58.0%,表明该基准具有较高的挑战性。此外,不同的检索增强生成(RAG)方法在该任务上表现出显著的性能差异,说明RAG方法在金融多模态推理中仍有很大的提升空间。这些结果为未来的研究提供了明确的方向。

🎯 应用场景

FinMMDocR可用于评估和提升多模态大型语言模型在金融领域的应用能力,例如智能投顾、风险评估、财务分析等。该基准的提出有助于推动金融领域AI技术的发展,提高金融服务的效率和质量,并为投资者提供更智能化的决策支持。

📄 摘要(原文)

We introduce FinMMDocR, a novel bilingual multimodal benchmark for evaluating multimodal large language models (MLLMs) on real-world financial numerical reasoning. Compared to existing benchmarks, our work delivers three major advancements. (1) Scenario Awareness: 57.9% of 1,200 expert-annotated problems incorporate 12 types of implicit financial scenarios (e.g., Portfolio Management), challenging models to perform expert-level reasoning based on assumptions; (2) Document Understanding: 837 Chinese/English documents spanning 9 types (e.g., Company Research) average 50.8 pages with rich visual elements, significantly surpassing existing benchmarks in both breadth and depth of financial documents; (3) Multi-Step Computation: Problems demand 11-step reasoning on average (5.3 extraction + 5.7 calculation steps), with 65.0% requiring cross-page evidence (2.4 pages average). The best-performing MLLM achieves only 58.0% accuracy, and different retrieval-augmented generation (RAG) methods show significant performance variations on this task. We expect FinMMDocR to drive improvements in MLLMs and reasoning-enhanced methods on complex multimodal reasoning tasks in real-world scenarios.