INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs' Performance in Insurance

📄 arXiv: 2406.09105v2 📥 PDF

作者: Chenwei Lin, Hanjia Lyu, Xian Xu, Jiebo Luo

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2024-06-13 (更新: 2025-08-07)

备注: To appear in the International Conference on Computer Vision, ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

INS-MMBench:首个保险领域多模态大模型综合评测基准,覆盖22项基础任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 保险领域 评测基准 视觉语言模型 分层任务 智能理赔 风险评估

📋 核心要点

  1. 现有LVLMs在保险领域应用潜力巨大,但缺乏系统性的多模态任务回顾和专门的评测基准,限制了其发展。
  2. 论文提出INS-MMBench,一个分层基准,包含22项基础任务、12项元任务和5项场景任务,全面评估LVLMs在保险领域的性能。
  3. 通过对11个主流LVLMs的评测,验证了INS-MMBench的有效性,并揭示了现有模型在保险任务上的优缺点。

📝 摘要(中文)

大型视觉-语言模型(LVLMs)和多模态大型语言模型(MLLMs)在各种通用多模态应用中表现出色,并在特定领域展现出日益增长的潜力。然而,它们在保险领域的潜力——以多样化的应用场景和丰富的多模态数据为特征——在很大程度上仍未被探索。目前,既没有对多模态任务的系统性回顾,也没有专门为评估LVLMs在保险领域的能力而设计的基准。这一空白阻碍了LVLMs在保险行业中的发展。本研究系统地回顾和分类了汽车、财产、健康和农业四种代表性保险的多模态任务。我们推出了INS-MMBench,这是首个为保险领域量身定制的分层基准。INS-MMBench包含22项基本任务、12项元任务和5项场景任务,能够从基本能力到实际用例进行全面和渐进的评估。我们对11个领先的LVLMs进行了基准测试,包括GPT-4o等闭源模型和LLaVA等开源模型。我们的评估验证了INS-MMBench的有效性,并提供了对当前LVLMs在各种保险相关多模态任务上的优势和局限性的详细见解。我们希望INS-MMBench将加速LVLMs融入保险行业,并促进跨学科研究。我们的数据集和评估代码可在https://github.com/FDU-INS/INS-MMBench获取。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLMs)在通用多模态任务中表现出色,但在保险这一特定领域,由于缺乏专门的评估基准和系统性的任务梳理,其潜力尚未充分挖掘。保险领域的多模态数据丰富且应用场景多样,现有方法难以有效评估LVLMs在该领域的真实能力,阻碍了其在保险行业的应用。

核心思路:论文的核心思路是构建一个专门针对保险领域的多模态评测基准,即INS-MMBench。该基准通过分层结构,从基础能力、元任务到实际场景,全面评估LVLMs在保险相关任务中的性能。通过提供细粒度的评估,帮助研究人员和从业者了解LVLMs在保险领域的优势和局限性,从而促进其在该领域的应用。

技术框架:INS-MMBench的技术框架主要包含三个层次的任务:基础任务、元任务和场景任务。基础任务涵盖了图像分类、目标检测、文本理解等基本的多模态能力;元任务则是在基础任务之上构建的,例如视觉问答、图像描述等;场景任务模拟了保险行业的实际应用场景,例如理赔审核、风险评估等。整个框架旨在从不同层面评估LVLMs的性能。

关键创新:INS-MMBench的关键创新在于其针对保险领域的专业性和分层结构。与通用的多模态评测基准不同,INS-MMBench专注于保险领域的多模态任务,并根据任务的复杂程度和应用场景进行分层,从而能够更全面、更细致地评估LVLMs在该领域的性能。此外,该基准还涵盖了多种保险类型(汽车、财产、健康、农业),使其具有更广泛的适用性。

关键设计:INS-MMBench的关键设计包括任务的选择和数据的构建。任务的选择基于对保险行业实际需求的分析,涵盖了各种常见的保险相关任务。数据的构建则采用了多种方法,包括公开数据集的收集、人工标注和数据增强等,以保证数据的质量和多样性。此外,该基准还提供了统一的评估指标和评估流程,方便研究人员进行比较和分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文对11个领先的LVLMs进行了基准测试,包括GPT-4o和LLaVA等。实验结果表明,INS-MMBench能够有效区分不同LVLMs在保险相关任务上的性能差异,并揭示了它们在不同任务上的优势和局限性。例如,某些模型在图像理解方面表现出色,而另一些模型则在文本推理方面更具优势。这些结果为LVLMs在保险领域的应用提供了重要的参考。

🎯 应用场景

该研究成果可广泛应用于保险行业的智能化升级,例如智能理赔、风险评估、客户服务等。通过INS-MMBench,可以更有效地评估和选择适合保险业务的LVLMs,提升业务效率和客户满意度。未来,该基准还可以扩展到其他金融领域,推动金融行业的智能化发展。

📄 摘要(原文)

Large Vision-Language Models (LVLMs) and Multimodal Large Language Models (MLLMs) have demonstrated outstanding performance in various general multimodal applications and have shown increasing promise in specialized domains. However, their potential in the insurance domain-characterized by diverse application scenarios and rich multimodal data-remains largely underexplored. To date, there is no systematic review of multimodal tasks, nor a benchmark specifically designed to assess the capabilities of LVLMs in insurance. This gap hinders the development of LVLMs within the insurance industry. This study systematically reviews and categorizes multimodal tasks for 4 representative types of insurance: auto, property, health, and agricultural. We introduce INS-MMBench, the first hierarchical benchmark tailored for the insurance domain. INS-MMBench encompasses 22 fundamental tasks, 12 meta-tasks and 5 scenario tasks, enabling a comprehensive and progressive assessment from basic capabilities to real-world use cases. We benchmark 11 leading LVLMs, including closed-source models such as GPT-4o and open-source models like LLaVA. Our evaluation validates the effectiveness of INS-MMBench and offers detailed insights into the strengths and limitations of current LVLMs on a variety of insurance-related multimodal tasks. We hope that INS-MMBench will accelerate the integration of LVLMs into the insurance industry and foster interdisciplinary research. Our dataset and evaluation code are available at https://github.com/FDU-INS/INS-MMBench.