Web World Models

📄 arXiv: 2512.23676v1 📥 PDF

作者: Jichen Feng, Yifan Zhang, Chenggong Zhang, Yifu Lu, Shilong Liu, Mengdi Wang

分类: cs.AI, cs.CL, cs.CV

发布日期: 2025-12-29

备注: Project Page: https://github.com/Princeton-AI2-Lab/Web-World-Models

🔗 代码/项目: GITHUB


💡 一句话要点

提出Web World Model,结合Web代码的可靠性与LLM的生成能力,构建可控且开放的Agent环境。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 语言Agent Web技术 大型语言模型 可控生成

📋 核心要点

  1. 现有语言Agent环境构建方法要么依赖固定Web框架,缺乏灵活性;要么完全依赖生成模型,难以控制和工程化。
  2. Web World Model (WWM) 结合Web代码的可靠性和LLM的生成能力,在结构化潜在状态上生成上下文和决策。
  3. 通过在多种Web环境中构建WWM,验证了其有效性,并总结了实用设计原则,例如分离规则与想象力。

📝 摘要(中文)

语言Agent越来越需要在持久的世界中行动、记忆和学习。现有方法处于两个极端:传统的Web框架提供可靠但固定的上下文,由数据库支持;而完全生成的世界模型旨在实现无限的环境,但牺牲了可控性和实际工程性。本文介绍了Web World Model (WWM),这是一种中间地带,其中世界状态和“物理”在普通的Web代码中实现,以确保逻辑一致性,而大型语言模型在此结构化潜在状态之上生成上下文、叙述和高级决策。我们在一个真实的Web堆栈上构建了一套WWM,包括一个基于真实地理的无限旅行地图集、虚构的星系探险家、Web规模的百科全书和叙事世界,以及模拟和游戏类环境。通过这些系统,我们确定了WWM的实用设计原则:将代码定义的规则与模型驱动的想象力分离,将潜在状态表示为类型化的Web接口,并利用确定性生成来实现无限但结构化的探索。我们的结果表明,Web堆栈本身可以作为世界模型的可扩展基底,从而实现可控但开放的环境。

🔬 方法详解

问题定义:现有语言Agent的训练和部署面临环境构建的挑战。传统Web框架虽然可靠,但环境固定,难以满足Agent探索和学习的需求。完全生成的世界模型虽然具有开放性,但缺乏逻辑一致性和可控性,难以实际工程化应用。因此,需要一种既能保证环境可靠性,又能提供足够开放性和可控性的世界模型。

核心思路:Web World Model (WWM) 的核心思路是将世界状态和“物理规则”用普通的Web代码实现,保证逻辑一致性和可控性。同时,利用大型语言模型 (LLM) 在此结构化潜在状态之上生成上下文、叙述和高级决策,从而实现开放性和创造性。这种混合方法旨在弥合传统Web框架和完全生成模型之间的差距。

技术框架:WWM的整体架构包含两个主要部分:一是基于Web代码实现的世界状态和规则,二是基于LLM的上下文生成和决策模块。Web代码部分负责维护世界的底层逻辑和状态更新,例如地理位置、物品属性等。LLM模块则负责根据当前世界状态生成叙述、对话和Agent的行动策略。两者通过定义良好的Web接口进行交互,实现信息的传递和状态的更新。

关键创新:WWM的关键创新在于将Web技术栈作为世界模型的基础设施。通过利用现有的Web技术,例如HTTP协议、HTML页面和JavaScript脚本,WWM可以方便地构建和扩展各种类型的世界环境。此外,WWM还强调将代码定义的规则与模型驱动的想象力分离,从而实现更好的可控性和可解释性。

关键设计:WWM的关键设计包括:1) 使用类型化的Web接口来表示潜在状态,方便LLM理解和操作;2) 利用确定性生成来实现无限但结构化的探索,避免LLM生成不一致或不合逻辑的内容;3) 将世界状态和规则用Web代码实现,保证逻辑一致性和可控性。具体的参数设置和网络结构取决于具体的LLM模型和Web环境。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个真实的Web环境中验证了WWM的有效性,包括无限旅行地图集、星系探险家、Web规模的百科全书和叙事世界,以及模拟和游戏类环境。实验结果表明,WWM可以有效地生成一致且有趣的上下文,并支持Agent进行复杂的交互和决策。虽然论文没有提供具体的性能数据,但通过案例展示了WWM在不同场景下的应用潜力。

🎯 应用场景

Web World Model具有广泛的应用前景,例如用于训练和评估语言Agent、构建交互式叙事游戏、开发虚拟旅游应用等。通过提供可控且开放的环境,WWM可以帮助Agent更好地学习和适应复杂的世界,并为用户提供更加丰富和个性化的体验。未来,WWM有望成为构建通用人工智能的重要基石。

📄 摘要(原文)

Language agents increasingly require persistent worlds in which they can act, remember, and learn. Existing approaches sit at two extremes: conventional web frameworks provide reliable but fixed contexts backed by databases, while fully generative world models aim for unlimited environments at the expense of controllability and practical engineering. In this work, we introduce the Web World Model (WWM), a middle ground where world state and ``physics'' are implemented in ordinary web code to ensure logical consistency, while large language models generate context, narratives, and high-level decisions on top of this structured latent state. We build a suite of WWMs on a realistic web stack, including an infinite travel atlas grounded in real geography, fictional galaxy explorers, web-scale encyclopedic and narrative worlds, and simulation- and game-like environments. Across these systems, we identify practical design principles for WWMs: separating code-defined rules from model-driven imagination, representing latent state as typed web interfaces, and utilizing deterministic generation to achieve unlimited but structured exploration. Our results suggest that web stacks themselves can serve as a scalable substrate for world models, enabling controllable yet open-ended environments. Project Page: https://github.com/Princeton-AI2-Lab/Web-World-Models.