Can Test-Time Scaling Improve World Foundation Model?

📄 arXiv: 2503.24320v2 📥 PDF

作者: Wenyan Cong, Hanqing Zhu, Peihao Wang, Bangya Liu, Dejia Xu, Kevin Wang, David Z. Pan, Yan Wang, Zhiwen Fan, Zhangyang Wang

分类: cs.CV

发布日期: 2025-03-31 (更新: 2025-08-08)

备注: Accepted by COLM2025

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出SWIFT框架,通过测试时计算扩展提升世界基础模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界基础模型 测试时扩展 模型推理 计算优化 物理智能

📋 核心要点

  1. 世界基础模型面临预训练计算资源需求大和后训练数据受限的双重挑战。
  2. SWIFT框架通过测试时计算扩展,在不重新训练或增大模型规模的前提下提升模型性能。
  3. 实验表明,测试时扩展定律适用于世界基础模型,SWIFT提供了一种有效且可扩展的改进途径。

📝 摘要(中文)

世界基础模型(WFMs)通过预测当前观测和输入下的未来状态来模拟物理世界,已成为自动驾驶和机器人等物理智能应用的核心。然而,这些模型需要大量的计算资源进行预训练,并受到后训练期间可用数据的进一步限制。因此,测试时计算扩展成为传统模型扩大或重新训练的关键且实用的替代方案。本文介绍了一种为WFM量身定制的测试时扩展框架SWIFT。SWIFT集成了可扩展的WFM评估工具包与进程级推理策略,包括快速分词、基于概率的Top-K剪枝和高效的束搜索。在COSMOS模型上的实验结果表明,即使在计算最优的方式下,测试时扩展也是存在的。研究结果表明,测试时扩展定律适用于WFM,并且SWIFT为改进WFM推理提供了一种可扩展且有效的方法,无需重新训练或增加模型大小。

🔬 方法详解

问题定义:世界基础模型(WFMs)在模拟物理世界和预测未来状态方面至关重要,但其预训练需要大量计算资源,且后训练阶段的数据可用性也受到限制。现有方法主要依赖于扩大模型规模或重新训练,这两种方式都成本高昂,难以满足实际应用的需求。因此,如何在有限的计算资源和数据条件下,提升WFM的推理性能是一个亟待解决的问题。

核心思路:SWIFT框架的核心思路是在测试时通过计算扩展来提升WFM的性能,而不是依赖于传统的模型放大或重新训练。这种方法旨在探索在推理阶段,通过更高效的计算策略来挖掘现有模型的潜力。通过优化推理过程,可以在不增加模型复杂度的前提下,显著提升模型的预测精度和效率。

技术框架:SWIFT框架主要包含以下几个核心模块:1) 可扩展的WFM评估工具包,用于全面评估不同WFM的性能;2) 快速分词(Fast Tokenization),减少预处理的时间开销;3) 基于概率的Top-K剪枝(Probability-based Top-K Pruning),减少不必要的计算量;4) 高效的束搜索(Efficient Beam Search),优化解码过程,提高生成序列的质量。这些模块协同工作,共同提升WFM在测试时的推理效率和准确性。

关键创新:SWIFT框架的关键创新在于其测试时计算扩展的理念。与传统的模型训练和优化方法不同,SWIFT专注于在推理阶段通过算法优化来提升模型性能。这种方法避免了重新训练模型所需的大量计算资源和时间,使得在资源受限的环境下也能有效提升WFM的性能。此外,SWIFT框架集成了多种先进的推理策略,如Top-K剪枝和高效束搜索,进一步提升了推理效率和准确性。

关键设计:SWIFT框架的关键设计包括:1) Top-K剪枝策略,根据概率分布选择最有可能的K个token,减少计算量;2) 高效束搜索算法,在解码过程中维护多个候选序列,并根据概率选择最优序列;3) 快速分词技术,加速文本预处理过程。这些设计旨在在保证模型预测精度的前提下,尽可能地减少计算开销,实现高效的测试时计算扩展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SWIFT框架能够在COSMOS模型上实现有效的测试时计算扩展。通过集成快速分词、Top-K剪枝和高效束搜索等策略,SWIFT在不增加模型大小或重新训练的情况下,显著提升了模型的推理效率和准确性。研究结果验证了测试时扩展定律在世界基础模型中的适用性,并为WFM的优化提供了一种新的思路。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人、游戏AI等领域,提升智能体在复杂物理环境中的感知和决策能力。通过SWIFT框架,可以在有限的计算资源下,显著提升世界基础模型的性能,加速相关技术的落地应用。未来,该研究有望推动物理智能领域的发展,实现更智能、更高效的智能系统。

📄 摘要(原文)

World foundation models, which simulate the physical world by predicting future states from current observations and inputs, have become central to many applications in physical intelligence, including autonomous driving and robotics. However, these models require substantial computational resources for pretraining and are further constrained by available data during post-training. As such, scaling computation at test time emerges as both a critical and practical alternative to traditional model enlargement or re-training. In this work, we introduce SWIFT, a test-time scaling framework tailored for WFMs. SWIFT integrates our extensible WFM evaluation toolkit with process-level inference strategies, including fast tokenization, probability-based Top-K pruning, and efficient beam search. Empirical results on the COSMOS model demonstrate that test-time scaling exists even in a compute-optimal way. Our findings reveal that test-time scaling laws hold for WFMs and that SWIFT provides a scalable and effective pathway for improving WFM inference without retraining or increasing model size. Project page: https://scalingwfm.github.io/.