Protecting multimodal large language models against misleading visualizations

作者: Jonathan Tonglet, Tinne Tuytelaars, Marie-Francine Moens, Iryna Gurevych

分类: cs.CL

发布日期: 2025-02-27 (更新: 2026-01-06)

备注: Preprint. Code and data available at https://github.com/UKPLab/arxiv2025-misleading-visualizations

💡 一句话要点

提出六种方法以提高多模态大语言模型对误导性可视化的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 误导性可视化 问答系统 数据理解 模型鲁棒性

📋 核心要点

现有的多模态大语言模型在处理误导性可视化时表现脆弱，问答准确率显著下降。
论文提出六种推理时方法，旨在提升模型在误导性可视化上的问答性能，同时保持在非误导性可视化上的准确性。
实验结果显示，基于表格的问答和重绘可视化方法有效，问答准确率提升可达19.6个百分点。

📝 摘要（中文）

可视化在日常交流中扮演着重要角色，尤其是在数据驱动的环境中。多模态大语言模型（MLLMs）在自动图表理解方面的研究迅速发展，但其在面对误导性可视化时的可靠性仍然不足。本文揭示了MLLM在处理误导性可视化时，问答准确率平均下降至随机基线水平的脆弱性。为了解决这一问题，作者首次比较了六种推理时方法，以提高在误导性可视化上的问答性能，同时不影响在非误导性可视化上的准确性。研究发现，基于表格的问答和重绘可视化两种方法有效，提升幅度可达19.6个百分点。代码和数据已公开。

🔬 方法详解

问题定义：本文旨在解决多模态大语言模型在面对误导性可视化时的问答准确率显著下降的问题。现有方法未能有效应对这种脆弱性，导致模型在处理扭曲数据时表现不佳。

核心思路：论文提出的核心思路是通过比较六种推理时方法，寻找在误导性可视化上提升问答性能的有效策略，同时确保在非误导性可视化上的性能不受影响。

技术框架：整体架构包括数据预处理、模型推理和结果评估三个主要模块。首先，对输入的可视化数据进行解析，然后应用不同的推理方法进行问答，最后评估各方法的性能表现。

关键创新：本文的关键创新在于首次系统性地比较了多种推理方法在误导性可视化上的效果，特别是提出了基于表格的问答和重绘可视化的有效性，这些方法在提升准确率方面表现优异。

关键设计：在方法设计中，作者对参数设置进行了细致调整，确保模型在不同类型可视化上的适应性，损失函数的选择也考虑了对误导性数据的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，采用基于表格的问答和重绘可视化的方法，模型在误导性可视化上的问答准确率提升了19.6个百分点，显著优于随机基线。这一发现为多模态大语言模型的应用提供了新的思路和方法。

🎯 应用场景

该研究的潜在应用领域包括数据分析、教育和商业智能等，尤其是在需要解读复杂可视化信息的场景中。通过提升多模态大语言模型对误导性可视化的鲁棒性，能够帮助用户更准确地理解数据，从而做出更明智的决策。未来，该研究可能推动更广泛的可视化工具和智能系统的开发。

📄 摘要（原文）

Visualizations play a pivotal role in daily communication in an increasingly data-driven world. Research on multimodal large language models (MLLMs) for automated chart understanding has accelerated massively, with steady improvements on standard benchmarks. However, for MLLMs to be reliable, they must be robust to misleading visualizations, i.e., charts that distort the underlying data, leading readers to draw inaccurate conclusions. Here, we uncover an important vulnerability: MLLM question-answering (QA) accuracy on misleading visualizations drops on average to the level of the random baseline. To address this, we provide the first comparison of six inference-time methods to improve QA performance on misleading visualizations, without compromising accuracy on non-misleading ones. We find that two methods, table-based QA and redrawing the visualization, are effective, with improvements of up to 19.6 percentage points. We make our code and data available.

Protecting multimodal large language models against misleading visualizations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理