IGenBench: Benchmarking the Reliability of Text-to-Infographic Generation

📄 arXiv: 2601.04498v1 📥 PDF

作者: Yinghao Tang, Xueding Liu, Boyuan Zhang, Tingfeng Lan, Yupeng Xie, Jiale Lao, Yiyao Wang, Haoxuan Li, Tingting Gao, Bo Pan, Luoxuan Weng, Xiuqi Huang, Minfeng Zhu, Yingchaojie Feng, Yuyu Luo, Wei Chen

分类: cs.LG, cs.CV

发布日期: 2026-01-08


💡 一句话要点

IGenBench:评估文本生成信息图可靠性的基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本生成图像 信息图生成 可靠性评估 多模态学习 基准测试

📋 核心要点

  1. 现有的文本到图像模型在生成信息图时,可靠性不足,容易出现数据扭曲或文本错误等问题。
  2. 论文提出IGenBench基准测试,包含600个信息图测试用例,并设计自动评估框架,将可靠性验证分解为原子问题。
  3. 实验评估了10个先进的T2I模型,揭示了数据相关维度是性能瓶颈,且模型难以实现端到端正确性。

📝 摘要(中文)

信息图是将数据可视化与文本和说明性元素相结合以传达信息的复合视觉制品。虽然最近的文本到图像(T2I)模型可以生成美观的图像,但它们在生成信息图方面的可靠性仍不清楚。生成的信息图乍一看可能正确,但包含容易被忽视的问题,例如扭曲的数据编码或不正确的文本内容。我们提出了IGENBENCH,这是第一个用于评估文本生成信息图可靠性的基准,包含600个涵盖30种信息图类型的精选测试用例。我们设计了一个自动评估框架,该框架基于10种问题类型的分类法,将可靠性验证分解为原子的是/否问题。我们采用多模态大型语言模型(MLLM)来验证每个问题,从而产生问题级准确率(Q-ACC)和信息图级准确率(I-ACC)。我们全面评估了IGENBENCH上的10个最先进的T2I模型。我们的系统分析揭示了未来模型开发的关键见解:(i)三层性能等级,顶级模型达到0.90的Q-ACC,但I-ACC仅为0.49;(ii)与数据相关的维度成为普遍瓶颈(例如,数据完整性:0.21);(iii)在所有模型中实现端到端正确性的挑战。我们在https://igen-bench.vercel.app/发布了IGENBENCH。

🔬 方法详解

问题定义:现有文本到图像(T2I)模型虽然可以生成美观的图像,但在生成信息图时,其可靠性存在问题。生成的信息图可能包含不易察觉的错误,例如数据编码失真或文本内容不准确。因此,需要一个基准来系统地评估T2I模型生成信息图的可靠性,并识别潜在的瓶颈。

核心思路:论文的核心思路是构建一个包含多种信息图类型的基准数据集(IGenBench),并设计一个自动化的评估框架,将信息图的可靠性验证分解为一系列原子的是/否问题。通过多模态大型语言模型(MLLMs)来回答这些问题,从而量化模型生成信息图的准确性。

技术框架:IGenBench的整体框架包含以下几个主要部分:1) 精心策划的包含600个信息图测试用例的数据集,涵盖30种信息图类型;2) 基于信息图结构和内容的10种问题类型的分类法;3) 自动评估框架,将可靠性验证分解为原子的是/否问题;4) 使用多模态大型语言模型(MLLMs)来验证每个问题,并计算问题级准确率(Q-ACC)和信息图级准确率(I-ACC)。

关键创新:该论文的关键创新在于:1) 提出了第一个专门用于评估文本生成信息图可靠性的基准测试(IGenBench);2) 设计了一个自动化的评估框架,该框架将可靠性验证分解为原子的是/否问题,从而可以更细粒度地评估模型的性能;3) 利用多模态大型语言模型(MLLMs)来验证生成的信息图,避免了人工评估的成本和主观性。

关键设计:IGenBench的关键设计包括:1) 数据集的构建,需要确保涵盖各种信息图类型,并包含足够数量的测试用例;2) 问题类型的分类,需要确保能够覆盖信息图可靠性的各个方面,例如数据完整性、文本准确性等;3) MLLM的选择和配置,需要选择具有足够理解能力和推理能力的MLLM,并进行适当的微调或提示工程,以提高其验证准确率。

📊 实验亮点

实验结果表明,现有最先进的T2I模型在IGenBench上的表现存在显著差异,顶级模型的问题级准确率(Q-ACC)达到0.90,但信息图级准确率(I-ACC)仅为0.49。数据相关维度(如数据完整性)是普遍的性能瓶颈,数据完整性指标仅为0.21。所有模型都难以实现端到端的完全正确。

🎯 应用场景

该研究成果可应用于评估和改进文本生成信息图模型,提高生成信息图的质量和可靠性。此外,该基准测试和评估框架可以推广到其他类型的视觉内容生成任务,例如图表生成、地图生成等,促进多模态内容生成技术的发展。

📄 摘要(原文)

Infographics are composite visual artifacts that combine data visualizations with textual and illustrative elements to communicate information. While recent text-to-image (T2I) models can generate aesthetically appealing images, their reliability in generating infographics remains unclear. Generated infographics may appear correct at first glance but contain easily overlooked issues, such as distorted data encoding or incorrect textual content. We present IGENBENCH, the first benchmark for evaluating the reliability of text-to-infographic generation, comprising 600 curated test cases spanning 30 infographic types. We design an automated evaluation framework that decomposes reliability verification into atomic yes/no questions based on a taxonomy of 10 question types. We employ multimodal large language models (MLLMs) to verify each question, yielding question-level accuracy (Q-ACC) and infographic-level accuracy (I-ACC). We comprehensively evaluate 10 state-of-the-art T2I models on IGENBENCH. Our systematic analysis reveals key insights for future model development: (i) a three-tier performance hierarchy with the top model achieving Q-ACC of 0.90 but I-ACC of only 0.49; (ii) data-related dimensions emerging as universal bottlenecks (e.g., Data Completeness: 0.21); and (iii) the challenge of achieving end-to-end correctness across all models. We release IGENBENCH at https://igen-bench.vercel.app/.