Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

📄 arXiv: 2603.17508v1 📥 PDF

作者: Jiawei Zhou, Chi Zhang, Xiang Feng, Qiming Zhang, Haibo Qiu, Lihuo He, Dengpan Ye, Xinbo Gao, Jing Zhang

分类: cs.CV

发布日期: 2026-03-18

备注: 35 pages, 26 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出Omni-I2C基准,用于评估大模型将图像转换为可执行代码的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像到代码生成 大型多模态模型 基准测试 视觉感知 代码生成 结构化数据 人工智能

📋 核心要点

  1. 现有LMMs难以将复杂数字图形转换为可执行代码,面临视觉感知和代码生成双重挑战,任何细微错误都可能导致重建失败。
  2. Omni-I2C基准通过涵盖多种主题、模态和语言的1080个样本,提供全面评估,并配有可执行参考代码。
  3. 评估框架将性能解耦为感知保真度和符号精确度,深入分析LMMs的结构性失败和推理瓶颈,揭示模型间的显著差距。

📝 摘要(中文)

本文提出了Omni-I2C,一个综合性的基准,旨在评估大型多模态模型(LMMs)将复杂的、结构化的数字图形转换为可执行代码的能力。作者认为,对于当前一代的LMMs来说,这项任务是一个极具挑战性的难题:它需要前所未有的高保真视觉感知能力——解析复杂的空间层次结构和符号细节——以及精确的生成表达能力——合成语法正确且逻辑一致的代码。与传统的描述性任务不同,Omni-I2C需要一种整体性的理解,任何微小的感知幻觉或编码错误都会导致视觉重建的完全失败。Omni-I2C包含1080个精心策划的样本,其特点是跨越了多个主题、图像模态和编程语言。通过整合真实的、用户来源的案例,该基准涵盖了广泛的数字内容——从科学可视化到复杂的符号表示——每个案例都配有可执行的参考代码。为了补充这种多样性,评估框架提供了必要的深度;通过将性能分解为感知保真度和符号精确度,它超越了表面上的准确性,从而揭示了当前LMMs的细粒度结构性失败和推理瓶颈。评估结果表明,领先的LMMs之间存在显著的性能差距;即使是最先进的模型也难以在复杂场景中保持结构完整性,这突显了多模态代码生成仍然是一个艰巨的挑战。

🔬 方法详解

问题定义:现有的大型多模态模型(LMMs)在将复杂的、结构化的数字图形转换为可执行代码时面临挑战。传统的图像描述任务无法满足这种需求,因为代码生成需要极高的精确度和对图像结构的完整理解。即使是微小的感知错误或代码错误,都可能导致整个视觉重建过程的失败。因此,如何设计一个能够全面评估LMMs在图像到代码生成任务中表现的基准测试成为了一个关键问题。

核心思路:Omni-I2C的核心思路是创建一个具有足够广度和深度的基准测试,以全面评估LMMs在图像到代码生成任务中的能力。通过涵盖多种主题、图像模态和编程语言,Omni-I2C旨在模拟真实世界中各种复杂的数字图形场景。同时,该基准测试还提供了一个细粒度的评估框架,将性能分解为感知保真度和符号精确度,从而能够更深入地分析LMMs的优缺点。

技术框架:Omni-I2C基准测试包含以下几个主要组成部分: 1. 数据集:包含1080个精心策划的样本,涵盖科学可视化、复杂符号表示等多种数字内容,每个样本都配有可执行的参考代码。 2. 评估指标:将性能分解为感知保真度和符号精确度,使用多种指标来评估LMMs在不同方面的表现。 3. 评估流程:提供了一套完整的评估流程,包括数据预处理、模型推理、指标计算等步骤。

关键创新:Omni-I2C的关键创新在于其全面性和细粒度。与以往的图像描述或代码生成基准测试相比,Omni-I2C更加关注LMMs对图像结构的理解和代码生成的精确性。通过将性能分解为感知保真度和符号精确度,Omni-I2C能够更深入地分析LMMs的优缺点,并为未来的研究提供指导。

关键设计:Omni-I2C在数据集构建方面,注重多样性和真实性,收集了来自不同领域的数字图形样本,并确保每个样本都配有可执行的参考代码。在评估指标方面,除了传统的准确率指标外,还引入了结构相似性指标和代码执行成功率等指标,以更全面地评估LMMs的性能。此外,Omni-I2C还提供了一套易于使用的评估工具,方便研究人员进行实验和比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最先进的LMMs在Omni-I2C基准测试上的表现仍然不尽如人意,尤其是在处理复杂场景时,模型难以保持结构完整性。这突显了多模态代码生成仍然是一个具有挑战性的问题,并为未来的研究指明了方向。具体性能数据未在摘要中给出,需参考论文全文。

🎯 应用场景

Omni-I2C的研究成果可应用于自动化代码生成、科学数据可视化、教育软件开发等领域。通过提升LMMs的图像理解和代码生成能力,可以降低软件开发成本,提高开发效率,并为用户提供更智能、更便捷的应用体验。未来,该研究有望推动人工智能在更多领域的应用。

📄 摘要(原文)

We present Omni-I2C, a comprehensive benchmark designed to evaluate the capability of Large Multimodal Models (LMMs) in converting complex, structured digital graphics into executable code. We argue that this task represents a non-trivial challenge for the current generation of LMMs: it demands an unprecedented synergy between high-fidelity visual perception -- to parse intricate spatial hierarchies and symbolic details -- and precise generative expression -- to synthesize syntactically sound and logically consistent code. Unlike traditional descriptive tasks, Omni-I2C requires a holistic understanding where any minor perceptual hallucination or coding error leads to a complete failure in visual reconstruction. Omni-I2C features 1080 meticulously curated samples, defined by its breadth across subjects, image modalities, and programming languages. By incorporating authentic user-sourced cases, the benchmark spans a vast spectrum of digital content -- from scientific visualizations to complex symbolic notations -- each paired with executable reference code. To complement this diversity, our evaluation framework provides necessary depth; by decoupling performance into perceptual fidelity and symbolic precision, it transcends surface-level accuracy to expose the granular structural failures and reasoning bottlenecks of current LMMs. Our evaluation reveals a substantial performance gap among leading LMMs; even state-of-the-art models struggle to preserve structural integrity in complex scenarios, underscoring that multimodal code generation remains a formidable challenge. Data and code are available at https://github.com/MiliLab/Omni-I2C.