WorldCoder-Bench: Benchmarking Physically Grounded 3D World Synthesis
作者: Shuo Lu, Yinuo Xu, Kecheng Yu, Siru Jiang, Yongcan Yu, Yubin Wang, Haitao Yang, Yuxiang Zhang, Bin Wang, Ran He, Jian Liang
分类: cs.AI
发布日期: 2026-06-01
💡 一句话要点
提出WorldCoder-Bench,用于评估LLM在物理规则3D世界合成中的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D世界合成 大型语言模型 基准测试 物理规则 运行时验证
📋 核心要点
- 现有Web生成基准主要关注像素或DOM节点,无法有效评估LLM在物理规则3D世界合成中的能力。
- 提出WorldCoder-Bench,包含2026个专家任务,涵盖模拟、渲染和应用,并引入StateProbe进行运行时状态验证。
- 实验表明,现有最佳模型在WorldCoder-Core和WorldCoder-Robust上的验证覆盖率分别仅为27.8%和19.9%。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被要求不仅编写静态界面,还要从自然语言构建可执行的交互式世界。基于Three.js的浏览器原生3D是一个自然的下一个前沿:生成的程序必须集成资产,遵守空间和物理约束,并保持面向用户的控件与隐藏的运行时状态同步。然而,现有的Web生成基准和评估器主要只观察像素或DOM节点,而Three.js世界的机制在不透明的
🔬 方法详解
问题定义:现有的大型语言模型在生成交互式3D世界时,面临着如何保证生成的程序能够正确地集成3D资产,遵守物理规则和空间约束,并且保持用户界面与程序内部状态同步的问题。现有的Web生成基准测试方法主要关注像素或DOM节点,无法深入评估3D世界内部的逻辑和状态。
核心思路:该论文的核心思路是构建一个专门用于评估LLM在物理规则3D世界合成能力的基准测试集WorldCoder-Bench,并设计一种基于执行的协议StateProbe来验证生成的程序是否满足预定义的行为契约。通过这种方式,可以更全面地评估LLM在生成复杂交互式3D世界时的能力。
技术框架:WorldCoder-Bench包含以下几个主要组成部分: 1. 任务集:包含2026个专家策划的任务,涵盖模拟、渲染和应用场景。 2. 资产:提供可选的.glb格式的3D资产。 3. 行为契约:定义了程序运行时状态和转换的约束条件。 4. StateProbe:一种基于执行的协议,用于在沙盒浏览器中探测生成的程序,并验证其是否满足行为契约。
关键创新:该论文的关键创新在于: 1. WorldCoder-Bench基准测试集:专门针对物理规则3D世界合成任务,填补了现有Web生成基准测试的空白。 2. StateProbe验证协议:通过运行时状态探测和行为契约验证,可以更全面地评估生成的程序的正确性。
关键设计:StateProbe通过在沙盒浏览器中执行生成的程序,并监控其运行时状态。行为契约定义了程序状态和状态转换的约束条件,例如,某个物体的运动轨迹必须符合物理定律。StateProbe会检查程序是否违反这些约束条件,从而判断程序的正确性。为了增加验证的鲁棒性,行为契约经过了突变强化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有最佳模型在WorldCoder-Core上的验证覆盖率仅为27.8%,在WorldCoder-Robust上仅为19.9%。失败的主要原因是状态模式漂移和断裂的交互链,而不是缺少场景元素。这表明现有模型在处理复杂的3D交互逻辑方面仍有很大的提升空间。同时,实验还表明,廉价或快速的模型在更容易的领域仍然可以提供显著的价值。
🎯 应用场景
该研究成果可应用于评估和提升大型语言模型在生成交互式3D环境方面的能力,例如游戏开发、虚拟现实、增强现实、机器人控制等领域。通过WorldCoder-Bench,可以更好地了解LLM在处理物理规则和空间关系方面的局限性,并推动相关技术的发展。
📄 摘要(原文)
Large language models (LLMs) are increasingly asked not only to write static interfaces, but to construct executable interactive worlds from natural language. Browser-native 3D, commonly built with Three.js, is a natural next frontier: generated programs must integrate assets, obey spatial and physical constraints, and keep user-facing controls synchronized with hidden runtime state. Existing web-generation benchmarks and evaluators, however, largely observe only pixels or DOM nodes, while the mechanics of a Three.js world unfold inside an opaque