Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

作者: Jiawei Zhou, Chi Zhang, Xiang Feng, Qiming Zhang, Haibo Qiu, Lihuo He, Dengpan Ye, Xinbo Gao, Jing Zhang

分类: cs.CV

发布日期: 2026-03-18

备注: 35 pages, 26 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出Omni-I2C基准，用于评估大模型将图像转换为可执行代码的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像到代码生成 大型多模态模型 基准测试 视觉感知 代码生成 结构化数据 人工智能

📋 核心要点

现有LMMs难以将复杂数字图形转换为可执行代码，面临视觉感知和代码生成双重挑战，任何细微错误都可能导致重建失败。
Omni-I2C基准通过涵盖多种主题、模态和语言的1080个样本，提供全面评估，并配有可执行参考代码。
评估框架将性能解耦为感知保真度和符号精确度，深入分析LMMs的结构性失败和推理瓶颈，揭示模型间的显著差距。

📝 摘要（中文）

本文提出了Omni-I2C，一个综合性的基准，旨在评估大型多模态模型（LMMs）将复杂的、结构化的数字图形转换为可执行代码的能力。作者认为，对于当前一代的LMMs来说，这项任务是一个极具挑战性的难题：它需要前所未有的高保真视觉感知能力——解析复杂的空间层次结构和符号细节——以及精确的生成表达能力——合成语法正确且逻辑一致的代码。与传统的描述性任务不同，Omni-I2C需要一种整体性的理解，任何微小的感知幻觉或编码错误都会导致视觉重建的完全失败。Omni-I2C包含1080个精心策划的样本，其特点是跨越了多个主题、图像模态和编程语言。通过整合真实的、用户来源的案例，该基准涵盖了广泛的数字内容——从科学可视化到复杂的符号表示——每个案例都配有可执行的参考代码。为了补充这种多样性，评估框架提供了必要的深度；通过将性能分解为感知保真度和符号精确度，它超越了表面上的准确性，从而揭示了当前LMMs的细粒度结构性失败和推理瓶颈。评估结果表明，领先的LMMs之间存在显著的性能差距；即使是最先进的模型也难以在复杂场景中保持结构完整性，这突显了多模态代码生成仍然是一个艰巨的挑战。

🔬 方法详解

问题定义：现有的大型多模态模型（LMMs）在将复杂的、结构化的数字图形转换为可执行代码时面临挑战。传统的图像描述任务无法满足这种需求，因为代码生成需要极高的精确度和对图像结构的完整理解。即使是微小的感知错误或代码错误，都可能导致整个视觉重建过程的失败。因此，如何设计一个能够全面评估LMMs在图像到代码生成任务中表现的基准测试成为了一个关键问题。

核心思路：Omni-I2C的核心思路是创建一个具有足够广度和深度的基准测试，以全面评估LMMs在图像到代码生成任务中的能力。通过涵盖多种主题、图像模态和编程语言，Omni-I2C旨在模拟真实世界中各种复杂的数字图形场景。同时，该基准测试还提供了一个细粒度的评估框架，将性能分解为感知保真度和符号精确度，从而能够更深入地分析LMMs的优缺点。

技术框架：Omni-I2C基准测试包含以下几个主要组成部分： 1. 数据集：包含1080个精心策划的样本，涵盖科学可视化、复杂符号表示等多种数字内容，每个样本都配有可执行的参考代码。 2. 评估指标：将性能分解为感知保真度和符号精确度，使用多种指标来评估LMMs在不同方面的表现。 3. 评估流程：提供了一套完整的评估流程，包括数据预处理、模型推理、指标计算等步骤。

关键创新：Omni-I2C的关键创新在于其全面性和细粒度。与以往的图像描述或代码生成基准测试相比，Omni-I2C更加关注LMMs对图像结构的理解和代码生成的精确性。通过将性能分解为感知保真度和符号精确度，Omni-I2C能够更深入地分析LMMs的优缺点，并为未来的研究提供指导。

关键设计：Omni-I2C在数据集构建方面，注重多样性和真实性，收集了来自不同领域的数字图形样本，并确保每个样本都配有可执行的参考代码。在评估指标方面，除了传统的准确率指标外，还引入了结构相似性指标和代码执行成功率等指标，以更全面地评估LMMs的性能。此外，Omni-I2C还提供了一套易于使用的评估工具，方便研究人员进行实验和比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的LMMs在Omni-I2C基准测试上的表现仍然不尽如人意，尤其是在处理复杂场景时，模型难以保持结构完整性。这突显了多模态代码生成仍然是一个具有挑战性的问题，并为未来的研究指明了方向。具体性能数据未在摘要中给出，需参考论文全文。

🎯 应用场景

Omni-I2C的研究成果可应用于自动化代码生成、科学数据可视化、教育软件开发等领域。通过提升LMMs的图像理解和代码生成能力，可以降低软件开发成本，提高开发效率，并为用户提供更智能、更便捷的应用体验。未来，该研究有望推动人工智能在更多领域的应用。

📄 摘要（原文）

We present Omni-I2C, a comprehensive benchmark designed to evaluate the capability of Large Multimodal Models (LMMs) in converting complex, structured digital graphics into executable code. We argue that this task represents a non-trivial challenge for the current generation of LMMs: it demands an unprecedented synergy between high-fidelity visual perception -- to parse intricate spatial hierarchies and symbolic details -- and precise generative expression -- to synthesize syntactically sound and logically consistent code. Unlike traditional descriptive tasks, Omni-I2C requires a holistic understanding where any minor perceptual hallucination or coding error leads to a complete failure in visual reconstruction. Omni-I2C features 1080 meticulously curated samples, defined by its breadth across subjects, image modalities, and programming languages. By incorporating authentic user-sourced cases, the benchmark spans a vast spectrum of digital content -- from scientific visualizations to complex symbolic notations -- each paired with executable reference code. To complement this diversity, our evaluation framework provides necessary depth; by decoupling performance into perceptual fidelity and symbolic precision, it transcends surface-level accuracy to expose the granular structural failures and reasoning bottlenecks of current LMMs. Our evaluation reveals a substantial performance gap among leading LMMs; even state-of-the-art models struggle to preserve structural integrity in complex scenarios, underscoring that multimodal code generation remains a formidable challenge. Data and code are available at https://github.com/MiliLab/Omni-I2C.

Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理