MME-Finance: A Multimodal Finance Benchmark for Expert-level Understanding and Reasoning

📄 arXiv: 2411.03314v1 📥 PDF

作者: Ziliang Gan, Yu Lu, Dong Zhang, Haohan Li, Che Liu, Jian Liu, Ji Liu, Haipang Wu, Chaoyou Fu, Zenglin Xu, Rongjunchen Zhang, Yong Dai

分类: cs.CV, cs.CL

发布日期: 2024-11-05

备注: Project Page: https://hithink-research.github.io/MME-Finance/


💡 一句话要点

MME-Finance:面向金融领域专家级理解与推理的多模态金融基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 金融领域 视觉问答 基准数据集 专家标注

📋 核心要点

  1. 现有通用多模态基准难以评估金融领域模型的性能,无法有效指导金融多模态模型发展。
  2. 提出MME-Finance基准,包含金融专业知识和实际应用场景,并由专家进行标注。
  3. 实验表明,通用基准上表现好的模型在MME-Finance上表现不佳,尤其在金融相关类别。

📝 摘要(中文)

近年来,通用领域的多模态基准推动了多模态模型在通用任务上的快速发展。然而,金融领域具有其独特性,例如独特的图形图像(如K线图、技术指标图)以及丰富的专业金融知识(如期货、换手率)。因此,通用领域的基准通常无法衡量多模态模型在金融领域的性能,从而无法有效指导大型金融模型的快速发展。为了促进大型金融多模态模型的发展,我们提出了MME-Finance,一个双语开放式且面向实际应用的视觉问答(VQA)基准。我们的基准具有金融性和专业性,包括构建反映用户实际使用需求的图表(如计算机截图和手机摄影),根据金融领域查询的偏好创建问题,以及由具有10年以上金融行业经验的专家注释问题。此外,我们还开发了一个定制设计的金融评估系统,其中视觉信息首次被引入多模态评估过程。对19个主流MLLM进行了广泛的实验评估,以测试它们的感知、推理和认知能力。结果表明,在通用基准上表现良好的模型在MME-Finance上表现不佳;例如,表现最佳的开源和闭源模型分别获得65.69(Qwen2VL-72B)和63.18(GPT-4o)。它们在与金融最相关的类别中表现尤其差,例如K线图和技术指标图。此外,我们提出了一个中文版本,有助于比较MLLM在中文语境下的性能。

🔬 方法详解

问题定义:论文旨在解决通用多模态模型在金融领域表现不佳的问题。现有通用基准无法充分评估模型在金融领域的专业知识和推理能力,导致模型难以应用于实际金融场景。现有方法的痛点在于缺乏针对金融领域特点设计的评估基准,无法有效指导金融多模态模型的发展。

核心思路:论文的核心思路是构建一个专门针对金融领域的多模态基准MME-Finance,该基准包含金融领域的专业知识和实际应用场景,能够更准确地评估模型在金融领域的感知、推理和认知能力。通过构建更具挑战性的数据集和更专业的评估体系,推动金融多模态模型的发展。

技术框架:MME-Finance基准主要包含以下几个部分:1) 构建反映用户实际使用需求的图表,包括计算机截图和手机摄影等;2) 根据金融领域查询的偏好创建问题,问题涵盖K线图、技术指标图等金融领域常见图表;3) 由具有10年以上金融行业经验的专家对问题进行标注;4) 开发定制设计的金融评估系统,将视觉信息引入多模态评估过程。

关键创新:论文的关键创新在于构建了一个专门针对金融领域的多模态基准MME-Finance。与现有通用基准相比,MME-Finance更注重金融领域的专业知识和实际应用场景,能够更准确地评估模型在金融领域的性能。此外,论文还提出了一个定制设计的金融评估系统,将视觉信息引入多模态评估过程,进一步提高了评估的准确性。

关键设计:MME-Finance基准的关键设计包括:1) 图表的构建方式,采用计算机截图和手机摄影等方式,更贴近用户的实际使用场景;2) 问题的设计,根据金融领域查询的偏好创建问题,涵盖K线图、技术指标图等金融领域常见图表;3) 标注方式,由具有10年以上金融行业经验的专家进行标注,保证标注的准确性和专业性;4) 评估系统的设计,将视觉信息引入多模态评估过程,提高评估的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在通用基准上表现良好的模型在MME-Finance上表现不佳,例如Qwen2VL-72B和GPT-4o在MME-Finance上的得分分别为65.69和63.18,但在K线图和技术指标图等金融相关类别中表现尤其差。这表明MME-Finance能够有效区分模型在金融领域的专业能力,并为金融多模态模型的发展提供指导。

🎯 应用场景

MME-Finance基准可用于评估和提升多模态模型在金融领域的应用能力,例如智能投顾、风险评估、金融报告分析等。该基准的构建有助于推动金融多模态模型的发展,提高金融服务的智能化水平,为金融行业带来更高效、更便捷的解决方案。未来,该基准可以扩展到更多金融领域,例如保险、银行等,进一步提升金融服务的智能化水平。

📄 摘要(原文)

In recent years, multimodal benchmarks for general domains have guided the rapid development of multimodal models on general tasks. However, the financial field has its peculiarities. It features unique graphical images (e.g., candlestick charts, technical indicator charts) and possesses a wealth of specialized financial knowledge (e.g., futures, turnover rate). Therefore, benchmarks from general fields often fail to measure the performance of multimodal models in the financial domain, and thus cannot effectively guide the rapid development of large financial models. To promote the development of large financial multimodal models, we propose MME-Finance, an bilingual open-ended and practical usage-oriented Visual Question Answering (VQA) benchmark. The characteristics of our benchmark are finance and expertise, which include constructing charts that reflect the actual usage needs of users (e.g., computer screenshots and mobile photography), creating questions according to the preferences in financial domain inquiries, and annotating questions by experts with 10+ years of experience in the financial industry. Additionally, we have developed a custom-designed financial evaluation system in which visual information is first introduced in the multi-modal evaluation process. Extensive experimental evaluations of 19 mainstream MLLMs are conducted to test their perception, reasoning, and cognition capabilities. The results indicate that models performing well on general benchmarks cannot do well on MME-Finance; for instance, the top-performing open-source and closed-source models obtain 65.69 (Qwen2VL-72B) and 63.18 (GPT-4o), respectively. Their performance is particularly poor in categories most relevant to finance, such as candlestick charts and technical indicator charts. In addition, we propose a Chinese version, which helps compare performance of MLLMs under a Chinese context.