WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis

📄 arXiv: 2606.01869v1 📥 PDF

作者: Shuo Lu, Yinuo Xu, Kecheng Yu, Siru Jiang, Yongcan Yu, Yubin Wang, Haitao Yang, Yuxiang Zhang, Bin Wang, Ran He, Jian Liang

分类: cs.AI

发布日期: 2026-06-01


💡 一句话要点

提出WorldCoder-Bench,用于评估LLM在物理规则3D世界合成中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D世界合成 大型语言模型 基准测试 物理规则 运行时验证

📋 核心要点

  1. 现有Web生成基准主要关注像素或DOM节点,无法有效评估LLM在物理规则3D世界合成中的能力。
  2. 提出WorldCoder-Bench,包含2026个专家任务,涵盖模拟、渲染和应用,并引入StateProbe进行运行时状态验证。
  3. 实验表明,现有最佳模型在WorldCoder-Core和WorldCoder-Robust上的验证覆盖率分别仅为27.8%和19.9%。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被要求不仅编写静态界面,还要从自然语言构建可执行的交互式世界。基于Three.js的浏览器原生3D是一个自然的下一个前沿:生成的程序必须集成资产,遵守空间和物理约束,并保持面向用户的控件与隐藏的运行时状态同步。然而,现有的Web生成基准和评估器主要只观察像素或DOM节点,而Three.js世界的机制在不透明的中展开。我们引入WorldCoder-Bench,这是一个用于自主、物理规则3D世界合成的基准。WorldCoder-Bench包含2026个专家策划的任务,涵盖模拟、渲染和应用场景,具有可选的.glb资产和隐藏的行为契约。我们进一步提出了StateProbe,一种基于执行的协议,用于在沙盒浏览器中探测生成的程序,并验证运行时状态和转换上的隐藏的、经过突变强化的契约。除了验证覆盖率,我们还报告了自动化回报和时间效率倍增器,以衡量经过正确性调整的成本和时间节省。在九个前沿模型中,最好的系统在WorldCoder-Core上仅达到27.8%的验证覆盖率,在WorldCoder-Robust上仅达到19.9%,失败主要由状态模式漂移和断裂的交互链导致,而不是缺少场景元素。效用指标进一步表明,廉价或快速的模型仍然可以在更容易的领域提供巨大的价值。WorldCoder-Bench可在https://anonymous.4open.science/r/WorldCoder-Bench/获得。

🔬 方法详解

问题定义:现有的大型语言模型在生成交互式3D世界时,面临着如何保证生成的程序能够正确地集成3D资产,遵守物理规则和空间约束,并且保持用户界面与程序内部状态同步的问题。现有的Web生成基准测试方法主要关注像素或DOM节点,无法深入评估3D世界内部的逻辑和状态。

核心思路:该论文的核心思路是构建一个专门用于评估LLM在物理规则3D世界合成能力的基准测试集WorldCoder-Bench,并设计一种基于执行的协议StateProbe来验证生成的程序是否满足预定义的行为契约。通过这种方式,可以更全面地评估LLM在生成复杂交互式3D世界时的能力。

技术框架:WorldCoder-Bench包含以下几个主要组成部分: 1. 任务集:包含2026个专家策划的任务,涵盖模拟、渲染和应用场景。 2. 资产:提供可选的.glb格式的3D资产。 3. 行为契约:定义了程序运行时状态和转换的约束条件。 4. StateProbe:一种基于执行的协议,用于在沙盒浏览器中探测生成的程序,并验证其是否满足行为契约。

关键创新:该论文的关键创新在于: 1. WorldCoder-Bench基准测试集:专门针对物理规则3D世界合成任务,填补了现有Web生成基准测试的空白。 2. StateProbe验证协议:通过运行时状态探测和行为契约验证,可以更全面地评估生成的程序的正确性。

关键设计:StateProbe通过在沙盒浏览器中执行生成的程序,并监控其运行时状态。行为契约定义了程序状态和状态转换的约束条件,例如,某个物体的运动轨迹必须符合物理定律。StateProbe会检查程序是否违反这些约束条件,从而判断程序的正确性。为了增加验证的鲁棒性,行为契约经过了突变强化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最佳模型在WorldCoder-Core上的验证覆盖率仅为27.8%,在WorldCoder-Robust上仅为19.9%。失败的主要原因是状态模式漂移和断裂的交互链,而不是缺少场景元素。这表明现有模型在处理复杂的3D交互逻辑方面仍有很大的提升空间。同时,实验还表明,廉价或快速的模型在更容易的领域仍然可以提供显著的价值。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型在生成交互式3D环境方面的能力,例如游戏开发、虚拟现实、增强现实、机器人控制等领域。通过WorldCoder-Bench,可以更好地了解LLM在处理物理规则和空间关系方面的局限性,并推动相关技术的发展。

📄 摘要(原文)

Large language models (LLMs) are increasingly asked not only to write static interfaces, but to construct executable interactive worlds from natural language. Browser-native 3D, commonly built with Three.js, is a natural next frontier: generated programs must integrate assets, obey spatial and physical constraints, and keep user-facing controls synchronized with hidden runtime state. Existing web-generation benchmarks and evaluators, however, largely observe only pixels or DOM nodes, while the mechanics of a Three.js world unfold inside an opaque . We introduce WorldCoder-Bench, a benchmark for autonomous, physically grounded 3D world synthesis. WorldCoder-Bench contains 2,026 expert-curated tasks across Simulation, Rendering, and Application scenarios, with optional .glb assets and hidden behavioral contracts. We further propose StateProbe, an execution-based protocol that probes generated programs in a sandboxed browser and verifies hidden, mutation-hardened contracts over runtime states and transitions. Beyond verification coverage, we report Return on Automation and Time Efficiency Multiplier to measure correctness-adjusted cost and time savings. Across nine frontier models, the best system reaches only 27.8% verification coverage on WorldCoder-Core and 19.9% on WorldCoder-Robust, with failures dominated by state-schema drift and broken interaction chains rather than missing scene elements. Utility metrics further show that cheap or fast models can still provide substantial value on easier domains. WorldCoder-Bench is available at https://anonymous.4open.science/r/WorldCoder-Bench/.