ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes
作者: Shivam Kumar
分类: cs.CV
发布日期: 2026-05-12
备注: 14 pages, 5 figures, 2 tables. Code, data, and artifacts: https://github.com/shivamk3r/shape-code-bench ; archival release: https://doi.org/10.5281/zenodo.20132286
💡 一句话要点
ShapeCodeBench:用于合成形状场景感知到程序重建的可再生基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 感知到程序重建 合成数据集 基准测试 可再生性 领域特定语言
📋 核心要点
- 现有方法在从图像重建可执行绘图程序方面存在不足,尤其是在处理复杂场景和精确参数控制时。
- ShapeCodeBench通过提供一个可控的合成环境,允许研究人员评估和比较不同模型在感知到程序重建任务上的性能。
- 实验结果表明,现有模型在精确匹配方面表现不佳,ShapeCodeBench为未来的研究提供了改进空间和明确的评估标准。
📝 摘要(中文)
我们推出了ShapeCodeBench,这是一个用于感知到程序重建的合成基准:给定渲染的栅格图像,模型必须生成一个可执行的绘图程序,该程序由确定性评估器重新渲染并与目标进行比较。v1 DSL在512 x 512的黑底白字画布上有四个图元,但每个实例都从种子RNG生成,因此可以创建新的保留集以减少精确实例污染。我们发布了一个包含150个样本的冻结eval_v1分割,分为简单、中等和困难三个等级,通过精确匹配、像素精度、前景IoU、解析成功和执行成功进行评分。我们评估了一个空程序下限、一个经典的计算机视觉启发式方法、Claude Opus 4.7(高和最大努力)以及GPT-5.5(中等和超高推理努力)。该启发式方法在简单场景中具有竞争力,但在重叠融合组件时会崩溃;最强的多模态配置保留了大部分前景结构,但由于小的参数错误仍然错过了精确匹配。最佳整体精确匹配仍然很低,因此ShapeCodeBench远未饱和。基准代码、冻结数据集、运行工件和论文来源已发布,以支持独立复制和扩展。
🔬 方法详解
问题定义:论文旨在解决从图像重建可执行绘图程序的问题。现有方法在处理复杂场景时,容易受到噪声、遮挡和参数误差的影响,导致重建的程序与目标图像不一致。此外,缺乏一个标准化的、可控的基准来评估不同方法的性能。
核心思路:论文的核心思路是创建一个合成数据集,其中图像由程序生成,从而可以精确控制图像的复杂度和参数。通过比较重建程序生成的图像与目标图像,可以客观地评估模型的性能。这种方法避免了真实世界数据的噪声和不确定性,并允许研究人员专注于算法的核心问题。
技术框架:ShapeCodeBench包含一个领域特定语言(DSL),用于生成包含四个基本绘图图元的程序。每个实例都从一个种子随机数生成器(RNG)创建,允许生成新的、未见过的测试集。该基准提供了一个冻结的评估集(eval_v1),包含150个样本,分为简单、中等和困难三个等级。评估指标包括精确匹配、像素精度、前景IoU、解析成功和执行成功。
关键创新:ShapeCodeBench的关键创新在于其可再生性。由于每个实例都从一个种子RNG生成,因此可以创建新的保留集,从而减少了精确实例污染。这使得研究人员可以更可靠地评估模型的泛化能力,并避免过度拟合特定数据集。
关键设计:v1 DSL包含四个基本绘图图元,画布大小为512 x 512像素,采用黑底白字。评估集分为三个难度等级,以逐步增加任务的复杂性。评估指标涵盖了程序重建的多个方面,包括语法正确性、执行成功率和图像相似度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是强大的多模态模型(如Claude Opus和GPT-5.5)在ShapeCodeBench上仍然难以实现精确匹配。经典的计算机视觉启发式方法在简单场景中表现良好,但在处理复杂场景时性能下降。这些结果表明,ShapeCodeBench为未来的研究提供了重要的挑战和机会,并强调了开发更强大的感知到程序重建算法的必要性。
🎯 应用场景
ShapeCodeBench可用于训练和评估各种感知到程序重建模型,例如机器人视觉、图像编辑和图形设计。该基准可以促进算法的开发,使其能够从视觉输入中生成可执行的指令,从而实现更智能、更灵活的自动化系统。此外,该基准还可以用于研究人类如何理解和生成视觉程序。
📄 摘要(原文)
We introduce ShapeCodeBench, a synthetic benchmark for perception-to-program reconstruction: given a rendered raster image, a model must emit an executable drawing program that a deterministic evaluator re-renders and compares with the target. The v1 DSL has four primitives on a 512 x 512 black-on-white canvas, but every instance is generated from a seeded RNG, so fresh held-out sets can be created to reduce exact-instance contamination. We release a frozen eval_v1 split with 150 samples across easy, medium, and hard tiers, scored by exact match, pixel accuracy, foreground IoU, parse success, and execution success. We evaluate an empty-program floor, a classical computer-vision heuristic, Claude Opus 4.7 at high and max effort, and GPT-5.5 at medium and extra_high reasoning effort. The heuristic is competitive on easy scenes but collapses when overlaps fuse components; the strongest multimodal configuration preserves much of the foreground structure but still misses exact match because of small parameter errors. Best overall exact match remains low, so ShapeCodeBench is far from saturated. The benchmark code, frozen dataset, run artifacts, and paper sources are released to support independent replication and extension.