ChartREG++: Towards Benchmarking and Improving Chart Referring Expression Grounding under Diverse referring clues and Multi-Target Referring

📄 arXiv: 2605.07415v1 📥 PDF

作者: Tianhao Niu, Ziyu Han, Qingfu Zhu, Wanxiang Che

分类: cs.CV, cs.CL

发布日期: 2026-05-08


💡 一句话要点

提出ChartREG++基准与代码驱动合成流水线,解决图表指代定位中的多目标与细粒度挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表理解 视觉定位 多模态学习 实例分割 自动标注 数据合成

📋 核心要点

  1. 现有图表定位基准局限于边界框标注,难以处理多目标指代,且对文本线索依赖过强,缺乏对复杂图表类型的泛化能力。
  2. 提出代码驱动的合成流水线,利用绘图代码与渲染图表间的对齐,自动生成像素级实例掩码,并训练高性能实例分割模型。
  3. 构建了ChartREG++基准,实验表明该方法在多模态定位任务中显著优于现有基线,并展现出良好的跨数据集泛化性能。

📝 摘要(中文)

指代表达定位(Referring Expression Grounding)是视觉定位与推理的核心任务,但现有研究多集中于自然图像。针对图表领域,现有基准存在定位精度受限(仅限边界框)、目标数量单一、语言线索依赖性过强以及图表类型覆盖不足等问题。为此,本文提出了ChartREG++,这是一个支持多种定位形式、多目标指代、多样化线索及广泛图表类型的基准。研究发现当前多模态大模型在该任务上表现欠佳。此外,本文引入了一种代码驱动的合成流水线,利用绘图程序与渲染图表基元间的对齐关系,生成像素级实例掩码。通过将基于此掩码训练的实例分割模型集成至通用多模态定位框架中,该系统在基准测试及ChartQA衍生数据集上均显著优于现有基线。

🔬 方法详解

问题定义:现有图表指代定位方法主要依赖边界框(Bounding Box),无法满足细粒度图表元素(如特定数据点、曲线片段)的精确定位需求,且难以处理多目标指代及复杂语义线索,限制了模型在真实图表分析中的应用。

核心思路:利用图表生成过程中的“代码-图像”对齐特性,通过解析绘图程序自动获取像素级标注,从而摆脱对昂贵人工标注的依赖,并构建更具挑战性的多目标指代基准。

技术框架:首先构建包含多样化图表类型与指代线索的ChartREG++基准;其次,开发代码驱动的合成流水线,将绘图代码映射为像素级实例掩码;最后,训练实例分割模型并将其集成至通用多模态定位框架中,实现对指代描述的精准响应。

关键创新:引入了代码驱动的自动化标注生成机制,实现了从粗粒度边界框到像素级实例掩码的跨越,并系统性地定义了多目标指代任务,填补了图表领域细粒度定位的空白。

关键设计:利用绘图程序(如Matplotlib代码)作为真值来源,通过渲染引擎提取图表元素的几何属性,构建大规模高质量的合成数据集,并采用多模态融合策略增强模型对复杂指代语义的理解能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ChartREG++在多个代表性多模态大模型上揭示了显著的性能差距。通过集成代码驱动生成的实例分割模型,该系统在各项指标上均大幅超越现有基线,并在ChartQA衍生的真实图表数据集上表现出极强的泛化能力,证明了像素级标注与多目标定位策略的有效性。

🎯 应用场景

该研究在金融报表分析、科学文献自动化挖掘、商业智能仪表盘解读等领域具有重要价值。通过实现对图表元素的像素级精准定位,该系统可辅助自动化报告生成、复杂数据可视化分析及智能问答系统,显著提升处理非结构化图表数据的效率与准确性。

📄 摘要(原文)

Referring expression grounding is a core problem in visual grounding and is widely used as a diagnostic of spatial grounding and reasoning in vision and language models, yet most prior work focuses on natural images. In contrast, existing chart referring expression grounding-related benchmarks remain limited: (1) they largely adopt bounding boxes, constraining localization precision for fine chart elements (2) they mostly assume a single and two referred target instances, failing to handle multi-instance target references; (3) the language expressions over-rely on textual cues or data-rank clues (4) they cover only a narrow range of chart types. To address these issues, we introduce a chart referring expression grounding benchmark that systematically supports multiple localization forms, multiple referred targets, diverse grounding cues and diverse chart types. Results across representative multimodal large models reveal a significant performance gap. We further introduce a code-driven synthesis pipeline that exploits the inherent alignment between plotting programs and rendered chart primitives to derive pixel accurate instance masks across chart element types and granularities. We train an instance segmentation model with the synthesized masks and integrate it into a general-purpose multimodal grounding framework. The resulting system consistently outperforms baselines on our benchmark and generalizes well to a ChartQA-derived real-chart grounding benchmark.