Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding
作者: Jianzhu Bao, Haozhen Zhang, Kuicai Dong, Bozhi Wu, Sarthak Ketanbhai Modi, Zi Pong Lim, Yon Shin Teo, Wenya Wang
分类: cs.CL
发布日期: 2026-05-11
备注: Accepted to ACL 2026 Main Conference
💡 一句话要点
提出ChartCF训练框架,通过反事实学习与多模态偏好优化提升图表理解的数据效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 图表理解 反事实学习 多模态偏好优化 数据高效学习 计算机视觉
📋 核心要点
- 现有VLM依赖大规模SFT,忽略了图表微小视觉变化引发语义剧变的特性,导致模型缺乏对反事实样本的细粒度判别能力。
- 提出ChartCF框架,通过代码驱动的反事实数据合成、相似度样本筛选及多模态偏好优化,增强模型对图表语义变化的敏感度。
- 实验证明,ChartCF在五个主流图表理解基准上,以更少的数据量实现了与当前顶尖图表专用VLM相当甚至更优的性能。
📝 摘要(中文)
视觉语言模型(VLM)在图表理解领域取得了显著进展,主要依赖于大规模合成数据的监督微调(SFT)。然而,单纯扩展SFT数据效率低下,且忽略了图表作为程序生成产物的核心特性:微小的代码级视觉变化即可导致语义和答案的剧烈改变。为了让VLM具备这种反事实敏感性,本文提出了ChartCF训练框架。该框架包含三个核心组件:基于代码修改的反事实数据合成流水线、基于图表相似度的样本筛选策略,以及跨文本与视觉模态的多模态偏好优化。在五个基准测试上的实验表明,ChartCF在显著减少训练数据量的同时,实现了优于或媲美现有强基线模型的效果。
🔬 方法详解
问题定义:现有图表理解模型主要通过大规模监督微调训练,但这种方式将训练样本视为独立个体,缺乏对图表“程序生成”本质的利用。模型难以捕捉微小视觉扰动(如坐标轴刻度变化、数据点偏移)带来的语义反事实变化,导致数据利用效率低下且鲁棒性不足。
核心思路:利用图表生成的程序化特性,主动构建反事实样本对,强制模型学习视觉差异与语义变化之间的映射关系。通过引入偏好优化,引导模型在细粒度视觉特征上进行更精准的推理。
技术框架:ChartCF包含三个阶段:首先是反事实数据合成,通过修改生成代码产生具有细微差异的图表对;其次是基于图表相似度的筛选策略,剔除过于简单或冗余的样本以提升训练效率;最后是多模态偏好优化,在文本和视觉模态上对模型进行对齐训练。
关键创新:将反事实推理引入图表理解任务,通过显式的对比学习和偏好优化,解决了传统SFT在处理细粒度视觉差异时的监督不足问题,实现了数据高效学习。
关键设计:采用了基于代码修改的合成流水线,确保反事实样本的语义变化可控;引入了多模态偏好优化损失函数,使模型能够区分细微的视觉特征差异,从而在更小的数据规模下获得更强的泛化能力。
🖼️ 关键图片
📊 实验亮点
ChartCF在五个主流图表理解基准测试中表现卓越。实验结果显示,该框架在大幅减少训练数据量(显著低于传统SFT规模)的前提下,性能不仅超越了通用VLM,还与当前最先进的图表专用模型(如ChartLlama等)持平或更优。这证明了通过反事实学习增强模型对视觉细微差异的敏感度,是提升数据效率的有效途径。
🎯 应用场景
该研究在金融报表自动分析、科研论文图表自动化解读、商业智能(BI)报告生成及医疗影像数据可视化分析等领域具有广泛应用价值。通过提升模型对图表细节的敏感度,可显著降低企业在构建高性能图表分析系统时对大规模标注数据的依赖,推动多模态AI在数据密集型行业的高效落地。
📄 摘要(原文)
Vision-Language Models (VLMs) have demonstrated remarkable progress in chart understanding, largely driven by supervised fine-tuning (SFT) on increasingly large synthetic datasets. However, scaling SFT data alone is inefficient and overlooks a key property of charts: charts are programmatically generated visual artifacts, where small, code-controlled visual changes can induce drastic shifts in semantics and correct answers. Learning this counterfactual sensitivity requires VLMs to discriminate fine-grained visual differences, yet standard SFT treats training instances independently and provides limited supervision to enforce this behavior. To address this, we introduce ChartCF, a data-efficient training framework designed to enhance counterfactual sensitivity. ChartCF consists of: (1) a counterfactual data synthesis pipeline via code modification, (2) a chart similarity-based data selection strategy that filters overly difficult samples for improved training efficiency, and (3) multimodal preference optimization across both textual and visual modalities. Experiments on five benchmarks show that ChartCF achieves superior or comparable performance to strong chart-specific VLMs while using significantly less training data.