FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering
作者: Siqiao Xue, Xiaojing Li, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei
分类: cs.CL, cs.AI
发布日期: 2024-10-06 (更新: 2025-05-15)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出金融领域多语言多模态问答基准FAMMA,挑战LLM的复杂推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 金融问答 多语言 多模态 大型语言模型 基准测试
📋 核心要点
- 现有LLM在金融领域复杂推理问答方面存在不足,缺乏专门的评估基准。
- 构建包含多语言、多模态信息的金融问答基准,用于评估和提升LLM的金融推理能力。
- 实验表明,现有LLM在FAMMA基准上表现不佳,通过推理轨迹微调Qwen模型可显著提升性能。
📝 摘要(中文)
本文介绍了一个开源基准FAMMA,用于金融领域的多语言多模态问答(QA)。该基准旨在评估大型语言模型(LLM)在回答需要高级金融知识的复杂推理问题方面的能力。FAMMA基准有两个版本:FAMMA-Basic包含1,945个从大学教科书和考试中提取的问题,以及人工标注的答案和理由;FAMMA-LivePro包含103个由领域专家创建的新问题,其答案和理由未公开,以进行无污染的评估。这些问题涵盖了金融领域的8个主要子领域的知识(例如,公司财务、衍生品和投资组合管理)。问题以英语为主,部分为中文或法语。每个问题都包含一些非文本数据,如图表、示意图或表格。实验表明,FAMMA对LLM提出了重大挑战,包括GPT-o1和DeepSeek-R1等推理模型。此外,我们整理了DeepSeek-R1在FAMMA-Basic数据上的1,270条推理轨迹,并使用这些推理数据微调了一系列开源Qwen模型。我们发现,在这些推理轨迹上训练模型可以显著提高其在FAMMA-LivePro上的性能。我们在https://famma-bench.github.io/famma/上发布了我们的排行榜、数据、代码和训练模型。
🔬 方法详解
问题定义:论文旨在解决金融领域多语言多模态问答的问题。现有方法缺乏针对金融领域的专业基准,难以有效评估和提升LLM在金融知识推理方面的能力,尤其是在处理图表、表格等多模态信息以及不同语言的问题时。
核心思路:论文的核心思路是构建一个高质量的金融领域问答基准,该基准包含多语言(英语、中文、法语)和多模态(文本、图表、表格)数据,涵盖金融领域的多个子领域,并提供人工标注的答案和理由,以及领域专家创建的无污染测试集,从而全面评估LLM的金融推理能力。
技术框架:FAMMA基准包含两个版本:FAMMA-Basic和FAMMA-LivePro。FAMMA-Basic包含从教科书和考试中提取的问题,并提供人工标注的答案和理由。FAMMA-LivePro包含由领域专家创建的新问题,答案和理由未公开。论文还利用DeepSeek-R1在FAMMA-Basic上的推理轨迹,微调开源Qwen模型。
关键创新:该基准的关键创新在于其高质量、多语言、多模态的金融领域数据,以及领域专家创建的无污染测试集。此外,利用推理轨迹进行微调的方法,可以有效提升模型在金融领域的推理能力。
关键设计:FAMMA-Basic包含1,945个问题,FAMMA-LivePro包含103个问题。问题涵盖公司财务、衍生品和投资组合管理等8个主要子领域。论文使用DeepSeek-R1生成推理轨迹,并使用这些轨迹微调Qwen模型。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在FAMMA基准上表现出显著的挑战。通过使用DeepSeek-R1在FAMMA-Basic数据上生成的推理轨迹微调Qwen模型,可以在FAMMA-LivePro上获得显著的性能提升,表明利用推理数据进行微调是一种有效的提升金融领域问答性能的方法。具体的性能数据和提升幅度未在摘要中详细说明,属于未知信息。
🎯 应用场景
该研究成果可应用于智能投顾、金融风险评估、金融知识问答系统等领域。通过提升LLM在金融领域的推理能力,可以为用户提供更准确、更专业的金融信息服务,辅助投资决策,降低金融风险,并促进金融知识的普及。
📄 摘要(原文)
In this paper, we introduce FAMMA, an open-source benchmark for \underline{f}in\underline{a}ncial \underline{m}ultilingual \underline{m}ultimodal question \underline{a}nswering (QA). Our benchmark aims to evaluate the abilities of large language models (LLMs) in answering complex reasoning questions that require advanced financial knowledge. The benchmark has two versions: FAMMA-Basic consists of 1,945 questions extracted from university textbooks and exams, along with human-annotated answers and rationales; FAMMA-LivePro consists of 103 novel questions created by human domain experts, with answers and rationales held out from the public for a contamination-free evaluation. These questions cover advanced knowledge of 8 major subfields in finance (e.g., corporate finance, derivatives, and portfolio management). Some are in Chinese or French, while a majority of them are in English. Each question has some non-text data such as charts, diagrams, or tables. Our experiments reveal that FAMMA poses a significant challenge on LLMs, including reasoning models such as GPT-o1 and DeepSeek-R1. Additionally, we curated 1,270 reasoning trajectories of DeepSeek-R1 on the FAMMA-Basic data, and fine-tuned a series of open-source Qwen models using this reasoning data. We found that training a model on these reasoning trajectories can significantly improve its performance on FAMMA-LivePro. We released our leaderboard, data, code, and trained models at https://famma-bench.github.io/famma/.