LLM Code Customization with Visual Results: A Benchmark on TikZ

作者: Charly Reux, Mathieu Acher, Djamel Eddine Khelladi, Olivier Barais, Clément Quinton

分类: cs.SE, cs.AI

发布日期: 2025-05-07 (更新: 2025-06-04)

期刊: EASE 2025 - Evaluation and Assessment in Software Engineering, Jun 2025, Istanbul, Turkey. pp.1-10

💡 一句话要点

vTikZ：一个用于评估LLM定制代码以修改视觉结果的新基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 代码生成 大型语言模型 视觉反馈 代码定制 基准测试 TikZ AI辅助编程

📋 核心要点

现有AI代码生成方法在根据视觉意图定制代码方面存在不足，难以准确定位代码特征并生成符合用户意图的变体。
论文提出vTikZ基准，通过精心设计的编辑场景和视觉反馈，评估LLM在代码定制和视觉一致性方面的能力。
实验结果表明，现有LLM在可靠地修改代码以符合视觉意图方面存在差距，为未来的研究指明了方向。

📝 摘要（中文）

随着基于AI的代码生成技术的兴起，通过自然语言指令定制现有代码以修改视觉结果（如图形或图像）已成为可能，这有望降低对深入编程专业知识的需求。然而，即使是经验丰富的开发人员也可能难以完成此任务，因为它需要识别相关的代码区域（特征定位），生成有效的代码变体，并确保修改可靠地与用户意图对齐。在本文中，我们介绍了vTikZ，这是第一个旨在评估大型语言模型（LLM）在保持一致视觉效果的同时定制代码的能力的基准。我们的基准包括精心策划的vTikZ编辑场景、参数化的真实数据以及利用视觉反馈来评估正确性的审查工具。使用最先进的LLM进行的实证评估表明，现有解决方案难以可靠地修改代码以符合视觉意图，这突出了当前AI辅助代码编辑方法中的差距。我们认为，vTikZ为将LLM与视觉反馈机制集成以改进各种领域（包括图像处理、艺术创作、Web设计和3D建模）中的代码定制任务开辟了新的研究方向。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在代码定制任务中，特别是根据视觉意图修改代码时所面临的挑战。现有方法难以准确地识别代码中与视觉效果相关的部分（特征定位），并且难以生成既有效又符合用户视觉意图的代码变体。这使得即使是有经验的开发者也难以利用LLM来高效地修改图形或图像等视觉元素。

核心思路：论文的核心思路是构建一个专门用于评估LLM代码定制能力的基准测试集vTikZ。该基准测试集包含一系列精心设计的代码编辑场景，每个场景都与特定的视觉效果相关联。通过提供参数化的真实数据和视觉反馈机制，vTikZ能够更准确地评估LLM生成的代码是否能够可靠地修改视觉效果，并与用户的意图保持一致。

技术框架：vTikZ基准测试集主要包含三个组成部分：一是精心策划的vTikZ编辑场景，这些场景涵盖了各种常见的视觉效果修改任务；二是参数化的真实数据，用于评估LLM生成的代码的正确性；三是一个审查工具，该工具利用视觉反馈来帮助评估者判断LLM生成的代码是否符合用户的视觉意图。整个流程包括输入自然语言指令，LLM生成代码，然后通过视觉反馈和参数化的真实数据来评估代码的正确性。

关键创新：vTikZ的主要创新在于它是第一个专门针对LLM代码定制能力，特别是针对视觉效果修改任务的基准测试集。它不仅提供了丰富的测试场景和参数化的真实数据，还引入了视觉反馈机制，使得评估过程更加准确和可靠。这与以往主要关注代码生成正确性的基准测试集不同，vTikZ更加关注代码修改后的视觉效果是否符合用户的意图。

关键设计：vTikZ的关键设计包括：(1) 编辑场景的多样性，涵盖了各种常见的TikZ图形编辑任务；(2) 参数化的真实数据，用于自动化评估代码的正确性；(3) 视觉反馈机制，允许评估者通过观察修改后的视觉效果来判断代码是否符合用户的意图。此外，vTikZ还提供了一个审查工具，该工具可以帮助评估者更有效地进行评估。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的最先进的LLM在vTikZ基准测试集上的表现不佳，难以可靠地修改代码以符合视觉意图。这突出了当前AI辅助代码编辑方法在处理视觉效果修改任务方面的不足，为未来的研究提供了明确的方向，即需要进一步提升LLM在代码定制和视觉一致性方面的能力。

🎯 应用场景

该研究成果可应用于图像处理、艺术创作、Web设计和3D建模等多个领域。通过提升LLM的代码定制能力，可以降低用户在这些领域进行内容创作和编辑的技术门槛，提高工作效率，并促进创新。未来，结合视觉反馈机制的LLM有望成为强大的辅助设计工具。

📄 摘要（原文）

With the rise of AI-based code generation, customizing existing code out of natural language instructions to modify visual results -such as figures or images -has become possible, promising to reduce the need for deep programming expertise. However, even experienced developers can struggle with this task, as it requires identifying relevant code regions (feature location), generating valid code variants, and ensuring the modifications reliably align with user intent. In this paper, we introduce vTikZ, the first benchmark designed to evaluate the ability of Large Language Models (LLMs) to customize code while preserving coherent visual outcomes. Our benchmark consists of carefully curated vTikZ editing scenarios, parameterized ground truths, and a reviewing tool that leverages visual feedback to assess correctness. Empirical evaluation with stateof-the-art LLMs shows that existing solutions struggle to reliably modify code in alignment with visual intent, highlighting a gap in current AI-assisted code editing approaches. We argue that vTikZ opens new research directions for integrating LLMs with visual feedback mechanisms to improve code customization tasks in various domains beyond TikZ, including image processing, art creation, Web design, and 3D modeling.

LLM Code Customization with Visual Results: A Benchmark on TikZ

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理