Faithful, Enriched, and Precise: Benchmarking Natural-Science Illustration Generation by T2I models

📄 arXiv: 2606.05949v2 📥 PDF

作者: Yifan Chang, Jiaxin Ai, Jianwen Sun, Yuandong Pu, Siqi Luo, Liangliang Zhao, Yuchen Ren, Minghao Liu, Yunfei Yu, Yu Qiao, Kaipeng Zhang, Yihao Liu

分类: cs.CV

发布日期: 2026-06-04 (更新: 2026-06-05)


💡 一句话要点

提出FEPBench以解决科学插图生成的评估不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学插图 文本到图像 多模态学习 模型评估 推理能力

📋 核心要点

  1. 现有的科学插图生成评估方法往往忽视了细粒度的元素,导致科学推理能力和输出简洁性未得到充分量化。
  2. 论文提出FEPBench基准,通过高质量科学插图和细粒度原子集注释,系统评估T2I模型的表现。
  3. 实验结果显示,当前最先进的模型在文本渲染和推理丰富性方面仍存在不足,为模型改进提供了方向。

📝 摘要(中文)

科学插图是传达研究成果的重要工具,尤其在自然科学领域,能够可视化复杂概念和过程。随着文本到图像(T2I)模型能力的提升,研究者开始利用这些模型生成科学插图。然而,现有基准往往在整体层面评估输出,忽视了细粒度元素,同时科学推理能力和输出简洁性仍然缺乏量化。为此,我们提出了FEPBench,这是一个基于多学科和多种布局类型的高质量科学插图构建的基准。借助多模态大型语言模型(MLLMs)和人类专家的帮助,我们提供了细粒度的原子集注释,并从指令忠实性、推理丰富性和语义精确性三个维度系统评估T2I模型。结果表明,即使是最先进的闭源模型,如GPT Image 2和Nano Banana Pro,仍然存在文本渲染瓶颈、推理丰富性有限以及生成丰富性与精确性平衡困难等问题。这些发现为改进和部署T2I模型在科学插图生成中的应用提供了实用指导。

🔬 方法详解

问题定义:本论文旨在解决现有科学插图生成评估方法的不足,尤其是在细粒度元素和科学推理能力的量化方面存在的挑战。

核心思路:通过构建FEPBench基准,结合多模态大型语言模型和人类专家的注释,提供细粒度的评估标准,全面评估T2I模型的生成能力。

技术框架:FEPBench的整体架构包括高质量科学插图的收集、细粒度原子集注释的生成、以及基于三个维度(指令忠实性、推理丰富性和语义精确性)的系统评估。

关键创新:FEPBench的创新在于细粒度的原子集注释和多维度评估方法,显著区别于传统的整体评估方式,能够更全面地反映模型的生成能力。

关键设计:在设计中,采用了多模态大型语言模型进行注释生成,并通过专家评审确保注释的质量和准确性,同时在评估中引入了视觉、文本、关系和布局等多个元素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最先进的闭源模型在文本渲染方面存在明显瓶颈,推理丰富性有限,且在生成丰富性与精确性之间难以取得平衡。这些发现为未来模型的改进提供了重要的参考依据。

🎯 应用场景

该研究的潜在应用领域包括科学出版、教育和研究展示等,能够帮助研究者更有效地生成和评估科学插图,提高科学传播的效率和准确性。未来,FEPBench的发布将促进T2I模型在科学插图生成中的广泛应用,推动相关领域的发展。

📄 摘要(原文)

Scientific illustrations are essential tools for communicating research findings, especially in natural science, where they visualize complex concepts and processes. As Text-to-Image (T2I) models become increasingly capable, researchers have started to use them for scientific illustration generation. However, existing benchmarks often assess outputs at a holistic level, overlooking fine-grained elements, while scientific reasoning ability and output conciseness remain under-quantified. We introduce FEPBench, a benchmark built from carefully selected high-quality scientific illustrations across multiple disciplines and layout types. With the assistance of multimodal large language models (MLLMs) and human experts, we provide fine-grained atom set annotations and systematically evaluate T2I models along three dimensions: instruction faithfulness, reasoning enrichment, and semantic precision. Our evaluation further decomposes model performance across visual, textual, relation, and layout elements. Results show that even state-of-the-art (SOTA) closed-source models, such as GPT Image 2 and Nano Banana Pro, still suffer from text-rendering bottlenecks, limited reasoning enrichment, and difficulty balancing generation richness with precision. These findings provide practical guidance for improving and deploying T2I models in scientific illustration generation. Benchmark data, atom set annotations, and evaluation code will be released by us.