FCMBench: A Comprehensive Financial Credit Multimodal Benchmark for Real-world Applications

作者: Yehui Yang, Dalu Yang, Wenshuo Zhou, Fangxin Shang, Yifan Liu, Jie Ren, Haojun Fei, Qing Yang, Yanwu Xu, Tao Chen

分类: cs.CV, cs.AI, cs.CE, cs.MM

发布日期: 2026-01-01 (更新: 2026-01-06)

💡 一句话要点

提出FCMBench：一个面向金融信贷场景的综合性多模态基准测试，用于评估和提升实际应用中的模型性能。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 金融信贷 多模态学习 基准测试 视觉-语言模型 风险评估

📋 核心要点

现有方法缺乏针对金融信贷场景的专用多模态基准测试，难以评估模型在实际应用中的性能和鲁棒性。
FCMBench通过合成-捕获流程构建数据集，兼顾了隐私合规性和真实性，并设计了感知、推理和鲁棒性三个维度的评估框架。
实验表明，FCMBench能够有效区分不同视觉-语言模型的性能，并揭示模型在真实世界采集伪像下的鲁棒性问题。

📝 摘要（中文）

本文提出了FCMBench-V1.0，一个大规模的金融信贷多模态基准测试，旨在满足金融信贷应用中对多模态AI日益增长的需求。该基准测试覆盖18种核心证书类型，包含4043张符合隐私合规的图像和8446个问答样本。FCMBench评估框架包含感知、推理和鲁棒性三个维度，包括3个基础感知任务、4个需要面向决策的视觉证据理解的信贷特定推理任务，以及10种用于鲁棒性压力测试的真实世界采集伪像类型。为了兼顾合规性和真实性，所有样本都通过闭环合成-捕获流程构建。实验结果表明，FCMBench能够有效区分不同视觉-语言模型的性能差异和鲁棒性。在对来自14家顶级AI公司和研究机构的23个最先进的视觉-语言模型（VLM）进行的大量实验中，Gemini 3 Pro作为商业模型取得了最佳F1得分（64.61%），Qwen3-VL-235B作为开源基线取得了最佳得分（57.27%），而我们专门针对金融信贷的模型Qfin-VL-Instruct取得了最高的总体得分（64.92%）。鲁棒性评估表明，即使是性能最佳的模型在采集伪像下也会出现明显的性能下降。

🔬 方法详解

问题定义：现有视觉-语言模型在金融信贷领域的应用面临缺乏专业benchmark的挑战。通用benchmark无法充分评估模型在该领域的特定能力，例如对信贷文档的理解和决策支持。此外，数据隐私和合规性要求限制了公开数据集的使用，导致模型训练和评估面临困难。现有方法难以兼顾数据真实性、隐私合规性和任务专业性。

核心思路：本文的核心思路是构建一个闭环的合成-捕获流程，生成既符合隐私要求又具有真实场景特征的金融信贷文档图像。通过人工合成文档模板和虚拟内容，并在模拟真实采集场景下捕获图像，从而避免使用网络数据，降低数据泄露风险。同时，设计包含感知、推理和鲁棒性三个维度的评估框架，全面评估模型在金融信贷领域的性能。

技术框架：FCMBench的整体框架包括数据生成和模型评估两部分。数据生成阶段，首先人工设计金融信贷文档模板，然后使用虚拟内容填充模板，生成合成文档。接着，在模拟真实采集场景下，使用相机捕获合成文档的图像，并添加各种采集伪像，如光照变化、遮挡等。模型评估阶段，使用包含感知、推理和鲁棒性三个维度的评估任务，对视觉-语言模型进行全面评估。

关键创新：FCMBench的关键创新在于其数据生成方法和评估框架。数据生成方面，采用闭环合成-捕获流程，兼顾了隐私合规性和数据真实性。评估框架方面，设计了包含感知、推理和鲁棒性三个维度的评估任务，能够全面评估模型在金融信贷领域的性能。此外，该benchmark避免了使用网络数据，降低了预训练数据泄露的风险。

关键设计：在数据生成方面，设计了18种核心证书类型，并模拟了10种真实世界采集伪像。在评估框架方面，感知任务包括OCR、文本检测和关键信息提取；推理任务包括文档分类、信息匹配、风险评估和决策支持；鲁棒性评估则通过引入不同程度的采集伪像来测试模型的鲁棒性。具体参数设置和损失函数根据不同任务的需求进行调整，例如，在OCR任务中使用交叉熵损失函数，在风险评估任务中使用F1 score作为评估指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Gemini 3 Pro作为商业模型取得了最佳F1得分（64.61%），Qwen3-VL-235B作为开源基线取得了最佳得分（57.27%），而专门针对金融信贷的模型Qfin-VL-Instruct取得了最高的总体得分（64.92%）。鲁棒性评估表明，即使是性能最佳的模型在采集伪像下也会出现明显的性能下降，突出了FCMBench在评估模型鲁棒性方面的价值。

🎯 应用场景

FCMBench可应用于金融信贷领域的风险评估、文档审核、智能客服等场景。通过该基准测试，可以有效评估和提升视觉-语言模型在处理金融信贷文档图像时的性能和鲁棒性，从而提高信贷审批效率、降低风险，并为金融机构提供更智能化的服务。

📄 摘要（原文）

As multimodal AI becomes widely used for credit risk assessment and document review, a domain-specific benchmark is urgently needed that (1) reflects documents and workflows specific to financial credit applications, (2) includes credit-specific understanding and real-world robustness, and (3) preserves privacy compliance without sacrificing practical utility. Here, we introduce FCMBench-V1.0 -- a large-scale financial credit multimodal benchmark for real-world applications, covering 18 core certificate types, with 4,043 privacy-compliant images and 8,446 QA samples. The FCMBench evaluation framework consists of three dimensions: Perception, Reasoning, and Robustness, including 3 foundational perception tasks, 4 credit-specific reasoning tasks that require decision-oriented understanding of visual evidence, and 10 real-world acquisition artifact types for robustness stress testing. To reconcile compliance with realism, we construct all samples via a closed synthesis-capture pipeline: we manually synthesize document templates with virtual content and capture scenario-aware images in-house. This design also mitigates pre-training data leakage by avoiding web-sourced or publicly released images. FCMBench can effectively discriminate performance disparities and robustness across modern vision-language models. Extensive experiments were conducted on 23 state-of-the-art vision-language models (VLMs) from 14 top AI companies and research institutes. Among them, Gemini 3 Pro achieves the best F1(\%) score as a commercial model (64.61), Qwen3-VL-235B achieves the best score as an open-source baseline (57.27), and our financial credit-specific model, Qfin-VL-Instruct, achieves the top overall score (64.92). Robustness evaluations show that even top-performing models suffer noticeable performance drops under acquisition artifacts.

FCMBench: A Comprehensive Financial Credit Multimodal Benchmark for Real-world Applications

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理