Visionary: The World Model Carrier Built on WebGPU-Powered Gaussian Splatting Platform
作者: Yuning Gong, Yifei Liu, Yifan Zhan, Muyao Niu, Xueying Li, Yuanjun Liao, Jiaming Chen, Yuanyuan Gao, Jiaqi Chen, Minming Chen, Li Zhou, Yuning Zhang, Wei Wang, Xiaoqing Hou, Huaxi Huang, Shixiang Tang, Le Ma, Dingwen Zhang, Xue Yang, Junchi Yan, Yanchi Zhang, Yinqiang Zheng, Xiao Sun, Zhihang Zhong
分类: cs.CV, cs.AI, cs.GR
发布日期: 2025-12-09
备注: Project page: https://visionary-laboratory.github.io/visionary
💡 一句话要点
Visionary:基于WebGPU高斯溅射的世界模型浏览器平台
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D高斯溅射 WebGPU 神经渲染 世界模型 实时渲染
📋 核心要点
- 现有3DGS查看器方案分散且笨重,部署困难,对动态内容和生成模型支持有限。
- Visionary是一个Web原生平台,基于WebGPU渲染器和ONNX推理,支持动态神经处理和高斯生成。
- 实验表明,Visionary在渲染效率上优于现有Web查看器,并支持多种3DGS变体和应用。
📝 摘要(中文)
神经渲染,特别是3D高斯溅射(3DGS),发展迅速,已成为构建世界模型的关键组成部分。然而,现有的查看器解决方案仍然分散、笨重或受限于传统流程,导致高部署摩擦和对动态内容及生成模型的有限支持。本文提出了Visionary,一个开放的、Web原生的平台,用于实时渲染各种高斯溅射和网格。Visionary建立在高效的WebGPU渲染器上,具有逐帧ONNX推理能力,可以在保持轻量级、“点击即运行”的浏览器体验的同时,实现动态神经处理。它引入了一个标准化的Gaussian Generator合约,不仅支持标准的3DGS渲染,还允许即插即用的算法来生成或更新每帧的高斯。这种推理也使我们能够应用前馈生成后处理。该平台还提供了一个three.js插件库,具有简洁的TypeScript API,可以无缝集成到现有的Web应用程序中。实验表明,在相同的3DGS资产下,由于基于GPU的图元排序,Visionary比当前的Web查看器具有更高的渲染效率。它已经支持多种变体,包括基于MLP的3DGS、4DGS、神经化身以及风格转换或增强网络。通过直接在浏览器中统一推理和渲染,Visionary显著降低了3DGS系列方法的复现、比较和部署的门槛,为重建和生成范式提供了一个统一的世界模型载体。
🔬 方法详解
问题定义:现有3D高斯溅射(3DGS)的查看器解决方案存在碎片化、部署困难、对动态内容支持不足等问题。这些问题限制了3DGS技术在Web环境下的广泛应用,阻碍了研究人员对不同3DGS变体的快速比较和部署。
核心思路:Visionary的核心思路是构建一个统一的、Web原生的3DGS渲染平台,该平台能够高效地渲染3DGS场景,并支持动态内容和生成模型。通过将推理和渲染直接在浏览器中进行,降低了3DGS技术的使用门槛。
技术框架:Visionary平台主要包含以下几个模块:1) 基于WebGPU的高效渲染器,负责实时渲染3DGS场景;2) ONNX推理引擎,用于执行动态神经处理和高斯生成;3) 标准化的Gaussian Generator合约,允许用户自定义高斯生成算法;4) three.js插件库,方便用户将Visionary集成到现有的Web应用程序中。整个流程是,首先通过ONNX推理生成或更新高斯参数,然后使用WebGPU渲染器将高斯渲染成图像。
关键创新:Visionary的关键创新在于其Web原生的架构和标准化的Gaussian Generator合约。Web原生架构使得Visionary可以在任何支持WebGPU的浏览器上运行,无需安装额外的插件或依赖。Gaussian Generator合约允许用户轻松地插入自定义的高斯生成算法,从而扩展了Visionary的功能。
关键设计:Visionary的关键设计包括:1) 使用WebGPU进行高效渲染,充分利用GPU的并行计算能力;2) 使用ONNX作为推理引擎,支持多种深度学习框架;3) 设计标准化的Gaussian Generator合约,方便用户自定义高斯生成算法;4) 提供简洁的TypeScript API,方便用户将Visionary集成到现有的Web应用程序中。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在相同的3DGS资产下,Visionary的渲染效率优于现有的Web查看器,这主要归功于其基于GPU的图元排序算法。此外,Visionary还支持多种3DGS变体,包括基于MLP的3DGS、4DGS、神经化身以及风格转换或增强网络,展示了其强大的扩展性和适应性。
🎯 应用场景
Visionary可应用于各种需要实时3D渲染的Web应用,例如虚拟现实、增强现实、游戏开发、产品展示、远程协作等。它降低了3DGS技术的部署门槛,促进了相关研究的快速发展,并为用户提供更丰富的交互体验。未来,Visionary有望成为Web端世界模型构建的重要基础设施。
📄 摘要(原文)
Neural rendering, particularly 3D Gaussian Splatting (3DGS), has evolved rapidly and become a key component for building world models. However, existing viewer solutions remain fragmented, heavy, or constrained by legacy pipelines, resulting in high deployment friction and limited support for dynamic content and generative models. In this work, we present Visionary, an open, web-native platform for real-time various Gaussian Splatting and meshes rendering. Built on an efficient WebGPU renderer with per-frame ONNX inference, Visionary enables dynamic neural processing while maintaining a lightweight, "click-to-run" browser experience. It introduces a standardized Gaussian Generator contract, which not only supports standard 3DGS rendering but also allows plug-and-play algorithms to generate or update Gaussians each frame. Such inference also enables us to apply feedforward generative post-processing. The platform further offers a plug in three.js library with a concise TypeScript API for seamless integration into existing web applications. Experiments show that, under identical 3DGS assets, Visionary achieves superior rendering efficiency compared to current Web viewers due to GPU-based primitive sorting. It already supports multiple variants, including MLP-based 3DGS, 4DGS, neural avatars, and style transformation or enhancement networks. By unifying inference and rendering directly in the browser, Visionary significantly lowers the barrier to reproduction, comparison, and deployment of 3DGS-family methods, serving as a unified World Model Carrier for both reconstructive and generative paradigms.