WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis

作者: Shuo Lu, Yinuo Xu, Kecheng Yu, Siru Jiang, Yongcan Yu, Yubin Wang, Haitao Yang, Yuxiang Zhang, Bin Wang, Ran He, Jian Liang

分类: cs.AI

发布日期: 2026-06-01

💡 一句话要点

提出WorldCoder-Bench，用于评估LLM在物理规则3D世界合成中的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D世界合成 大型语言模型 基准测试 物理规则 运行时验证

📋 核心要点

现有Web生成基准主要关注像素或DOM节点，无法有效评估LLM在物理规则3D世界合成中的能力。
提出WorldCoder-Bench，包含2026个专家任务，涵盖模拟、渲染和应用，并引入StateProbe进行运行时状态验证。
实验表明，现有最佳模型在WorldCoder-Core和WorldCoder-Robust上的验证覆盖率分别仅为27.8%和19.9%。

📝 摘要（中文）

大型语言模型(LLM)越来越多地被要求不仅编写静态界面，还要从自然语言构建可执行的交互式世界。基于Three.js的浏览器原生3D是一个自然的下一个前沿：生成的程序必须集成资产，遵守空间和物理约束，并保持面向用户的控件与隐藏的运行时状态同步。然而，现有的Web生成基准和评估器主要只观察像素或DOM节点，而Three.js世界的机制在不透明的

🔬 方法详解

问题定义：现有的大型语言模型在生成交互式3D世界时，面临着如何保证生成的程序能够正确地集成3D资产，遵守物理规则和空间约束，并且保持用户界面与程序内部状态同步的问题。现有的Web生成基准测试方法主要关注像素或DOM节点，无法深入评估3D世界内部的逻辑和状态。

核心思路：该论文的核心思路是构建一个专门用于评估LLM在物理规则3D世界合成能力的基准测试集WorldCoder-Bench，并设计一种基于执行的协议StateProbe来验证生成的程序是否满足预定义的行为契约。通过这种方式，可以更全面地评估LLM在生成复杂交互式3D世界时的能力。

技术框架：WorldCoder-Bench包含以下几个主要组成部分： 1. 任务集：包含2026个专家策划的任务，涵盖模拟、渲染和应用场景。 2. 资产：提供可选的.glb格式的3D资产。 3. 行为契约：定义了程序运行时状态和转换的约束条件。 4. StateProbe：一种基于执行的协议，用于在沙盒浏览器中探测生成的程序，并验证其是否满足行为契约。

关键创新：该论文的关键创新在于： 1. WorldCoder-Bench基准测试集：专门针对物理规则3D世界合成任务，填补了现有Web生成基准测试的空白。 2. StateProbe验证协议：通过运行时状态探测和行为契约验证，可以更全面地评估生成的程序的正确性。

关键设计：StateProbe通过在沙盒浏览器中执行生成的程序，并监控其运行时状态。行为契约定义了程序状态和状态转换的约束条件，例如，某个物体的运动轨迹必须符合物理定律。StateProbe会检查程序是否违反这些约束条件，从而判断程序的正确性。为了增加验证的鲁棒性，行为契约经过了突变强化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有最佳模型在WorldCoder-Core上的验证覆盖率仅为27.8%，在WorldCoder-Robust上仅为19.9%。失败的主要原因是状态模式漂移和断裂的交互链，而不是缺少场景元素。这表明现有模型在处理复杂的3D交互逻辑方面仍有很大的提升空间。同时，实验还表明，廉价或快速的模型在更容易的领域仍然可以提供显著的价值。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型在生成交互式3D环境方面的能力，例如游戏开发、虚拟现实、增强现实、机器人控制等领域。通过WorldCoder-Bench，可以更好地了解LLM在处理物理规则和空间关系方面的局限性，并推动相关技术的发展。

📄 摘要（原文）

Large language models (LLMs) are increasingly asked not only to write static interfaces, but to construct executable interactive worlds from natural language. Browser-native 3D, commonly built with Three.js, is a natural next frontier: generated programs must integrate assets, obey spatial and physical constraints, and keep user-facing controls synchronized with hidden runtime state. Existing web-generation benchmarks and evaluators, however, largely observe only pixels or DOM nodes, while the mechanics of a Three.js world unfold inside an opaque

WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理