Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset

作者: Qian Chen, Xianyin Zhang, Yanzhi Liu, Lifan Guo, Feng Chen, Chi Zhang

分类: cs.CV, cs.AI

发布日期: 2026-05-28

💡 一句话要点

提出CFMME：一个全面的中文金融多模态评估数据集，用于评测大视觉语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉语言模型 金融领域 中文数据集 评估基准

📋 核心要点

现有LVLMs在中文金融领域的多模态理解能力不足，缺乏专门的评估基准。
构建CFMME数据集，涵盖金融领域的多种图像模态和核心多模态任务，用于全面评估LVLMs。
实验结果表明，现有LVLMs在CFMME上的表现仍有提升空间，为未来研究提供了方向。

📝 摘要（中文）

大型视觉语言模型(LVLMs)的出现极大地扩展了模型的能力，使其超越了纯文本理解，实现了跨视觉和文本模态的统一推理，并支持更广泛的实际应用。为了全面评估LVLMs在中国金融业务流程中的感知、理解、推理和认知能力，我们推出了CFMME，这是一个新颖的中文金融多模态评估基准。CFMME包含6052个实例，涵盖从基础学术知识到复杂的实际应用，覆盖八种主要的金融图像模态和四个核心的多模态任务。在CFMME上，我们对具有代表性的LVLMs进行了彻底的评估。结果表明，最先进的模型在问答任务中获得了66.11%的总体准确率，在检测、识别和信息提取任务中获得了77.18的平均分，表明当前的LVLMs仍有很大的改进空间。此外，我们对错误原因、跨模态能力和多方向设置进行了详细分析，为未来的研究提供了有价值的见解。我们希望CFMME能够促进LVLMs的进一步发展，特别是通过提高它们在金融领域多个多模态任务中的性能。

🔬 方法详解

问题定义：现有的大型视觉语言模型（LVLMs）在通用领域取得了显著进展，但在特定领域，尤其是在中文金融领域，其多模态理解能力仍然不足。缺乏一个专门的、全面的评估基准来衡量LVLMs在金融领域的感知、理解、推理和认知能力，限制了该领域LVLMs的进一步发展。现有方法难以有效处理金融领域特有的图像模态和复杂的业务流程。

核心思路：论文的核心思路是构建一个高质量的中文金融多模态评估数据集CFMME，该数据集涵盖了金融领域的多种图像模态和核心多模态任务。通过在CFMME上对现有LVLMs进行全面评估，可以揭示它们在金融领域的优势和不足，从而为未来的研究提供指导。数据集的设计旨在模拟真实的金融业务场景，以更准确地评估LVLMs的实际应用能力。

技术框架：CFMME数据集包含6052个实例，涵盖八种主要的金融图像模态（例如，K线图、财务报表截图、公司Logo等）和四个核心的多模态任务（例如，问答、检测、识别和信息提取）。数据集的构建过程包括数据收集、数据清洗、数据标注和数据验证等步骤。论文还设计了一套评估指标，用于衡量LVLMs在不同任务上的性能。

关键创新：CFMME数据集是首个专门针对中文金融领域的多模态评估基准。它不仅涵盖了多种金融图像模态和核心多模态任务，还考虑了金融领域的特殊性和复杂性。此外，论文还对现有LVLMs在CFMME上进行了全面评估，并分析了它们的错误原因、跨模态能力和多方向设置，为未来的研究提供了有价值的见解。

关键设计：CFMME数据集的构建过程中，采用了多种数据增强技术，以提高数据集的多样性和鲁棒性。在数据标注方面，采用了多轮标注和专家审核机制，以保证标注的准确性和一致性。在评估指标方面，采用了多种指标，包括准确率、精确率、召回率和F1值等，以全面衡量LVLMs的性能。

🖼️ 关键图片

📊 实验亮点

在CFMME数据集上的实验结果表明，目前最先进的LVLM在问答任务中达到了66.11%的总体准确率，在检测、识别和信息提取任务中获得了77.18的平均分。虽然这些结果表明LVLMs在金融领域具有一定的潜力，但也揭示了它们仍有很大的改进空间。错误分析表明，LVLMs在处理复杂的金融概念和跨模态推理方面存在挑战。

🎯 应用场景

该研究成果可应用于金融领域的智能客服、风险评估、投资决策支持等场景。通过提升LVLMs在金融领域的理解和推理能力，可以提高金融服务的效率和质量，降低运营成本，并为投资者提供更准确的信息。未来，该研究可以扩展到其他特定领域，例如医疗、法律等，以构建更智能化的行业应用。

📄 摘要（原文）

The emergence of Large Vision-Language Models (LVLMs) has substantially expanded model capabilities beyond text-only understanding, enabling unified inference across both visual and textual modalities and supporting a broader range of real-world applications. To comprehensively evaluate the perception, understanding, reasoning, and cognition capabilities of LVLMs throughout the entire financial business workflow in Chinese contexts, we introduce CFMME, a novel Chinese financial multimodal evaluation benchmark. CFMME comprises 6,052 instances spanning from fundamental academic knowledge to complex real-world applications, covering eight primary financial image modalities and four core multimodal tasks. On CFMME, we conduct a thorough evaluation of representative LVLMs. The results show that the state-of-the-art model attains an overall accuracy of 66.11\% on the question answering task and an average score of 77.18 on the detection, recognition, and information extraction tasks, indicating substantial room for improvement in current LVLMs. In addition, we conduct detailed analyses of error causes, cross-modal capabilities, and multi-orientation settings, yielding valuable insights for future research. We hope that CFMME will spur further progress in LVLMs, especially by improving their performance on multiple multimodal tasks in the financial domain.

Benchmarking Large Vision-Language Models on CFMME: A Comprehensive Chinese Financial Multimodal Evaluation Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理