Order from Chaos: Physical World Understanding from Glitchy Gameplay Videos
作者: Meng Cao, Haoran Tang, Haoze Zhao, Mingfei Han, Ruyang Liu, Qiang Sun, Xiaojun Chang, Ian Reid, Xiaodan Liang
分类: cs.CV
发布日期: 2026-01-23
备注: Accepted by TMLR
💡 一句话要点
利用游戏视频中的故障,构建物理世界理解数据集PhysGame和基准GameBench。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 物理世界理解 游戏视频 故障检测 多模态学习 指令调优
📋 核心要点
- 现有的物理推理数据集存在标注成本高昂或真实性、多样性不足的问题,限制了多模态大语言模型在物理世界理解方面的能力。
- 论文提出利用游戏视频中违反物理定律的故障作为监督信号,构建大规模、高质量的物理推理数据集PhysGame和评估基准GameBench。
- 实验表明,基于PhysGame训练的模型在真实世界物理推理和通用能力方面均有提升,并在检测物理不合理性方面表现出更强的鲁棒性。
📝 摘要(中文)
理解物理世界,包括物体动态、材料属性和因果关系,仍然是人工智能领域的核心挑战。尽管最近的多模态大型语言模型(MLLM)已经展示了令人印象深刻的通用推理能力,但它们在实现人类水平的物理原理理解方面仍然不足。现有的物理推理数据集要么依赖于真实世界的视频,这会产生高昂的标注成本,要么依赖于合成模拟,这会受到有限的真实性和多样性的影响。在本文中,我们提出了一种新的范例,该范例利用游戏视频中的故障(指违反预定义物理定律的视觉异常)作为物理世界理解的丰富且可扩展的监督来源。我们引入了PhysGame,这是一个元信息引导的指令调优数据集,包含跨五个物理领域和十六个细粒度类别的140,057个以故障为中心的问题-答案对。为了确保数据的准确性,我们设计了一种提示策略,该策略利用游戏元数据(例如标题和描述)来指导高质量的QA生成。作为PhysGame的补充,我们构建了GameBench,这是一个专家注释的基准,包含880个故障识别的游戏视频,旨在评估物理推理能力。大量的实验表明,PhysGame显著增强了Game2Real的可迁移性,将Qwen2.5VL在PhysBench上的真实世界物理推理性能提高了2.5%,并增强了Game2General的可迁移性,在MVBench基准上产生了1.9%的增益。此外,PhysGame调优的模型在GameBench上实现了3.7%的绝对改进,证明了在检测物理不合理性方面的增强的鲁棒性。这些结果表明,从游戏异常中学习为推进多模态智能中的物理世界理解提供了一条可扩展且有效的途径。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在物理世界理解方面存在的不足。现有数据集要么依赖真实视频,标注成本高;要么依赖合成数据,真实性和多样性受限。因此,MLLM难以有效学习物理世界的规律和因果关系。
核心思路:论文的核心思路是利用游戏视频中常见的“故障”(glitches),即违反物理定律的视觉异常,作为一种天然的、低成本的监督信号。通过分析这些故障,模型可以学习到物理世界的约束和规律,从而提升物理推理能力。这种方法避免了高昂的人工标注成本,并能利用游戏世界的丰富性和多样性。
技术框架:整体框架包含两个主要组成部分:PhysGame数据集和GameBench基准。PhysGame是一个大规模的指令调优数据集,包含游戏视频故障相关的问答对,用于训练模型。GameBench是一个专家标注的基准,用于评估模型在检测物理不合理性方面的能力。训练过程采用指令调优的方式,利用PhysGame数据集对MLLM进行微调。
关键创新:论文的关键创新在于提出了一种新的数据生成范式,即利用游戏视频中的故障作为物理世界理解的监督信号。这种方法具有可扩展性和低成本的优势,能够有效提升模型的物理推理能力。此外,论文还设计了一种基于游戏元数据的提示策略,用于生成高质量的问答对。
关键设计:PhysGame数据集包含140,057个故障相关的问答对,涵盖五个物理领域和十六个细粒度类别。为了确保数据质量,论文设计了一种提示策略,利用游戏标题和描述等元数据来引导QA生成。GameBench基准包含880个专家标注的游戏视频,用于评估模型在检测物理不合理性方面的鲁棒性。具体使用的MLLM是Qwen2.5VL,采用指令调优的方式进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于PhysGame训练的模型在多个基准测试中取得了显著提升。在PhysBench上,Qwen2.5VL的真实世界物理推理性能提高了2.5%;在MVBench上,通用能力提高了1.9%;在GameBench上,检测物理不合理性的能力提高了3.7%。这些结果表明,利用游戏故障进行学习是一种有效的物理世界理解方法。
🎯 应用场景
该研究成果可应用于机器人、自动驾驶、游戏AI等领域。例如,机器人可以利用物理世界理解能力更好地进行导航和操作;自动驾驶系统可以更准确地预测车辆行为,提高安全性;游戏AI可以生成更逼真的游戏世界和角色行为。此外,该方法还可以用于教育领域,帮助学生更好地理解物理概念。
📄 摘要(原文)
Understanding the physical world, including object dynamics, material properties, and causal interactions, remains a core challenge in artificial intelligence. Although recent multi-modal large language models (MLLMs) have demonstrated impressive general reasoning capabilities, they still fall short of achieving human-level understanding of physical principles. Existing datasets for physical reasoning either rely on real-world videos, which incur high annotation costs, or on synthetic simulations, which suffer from limited realism and diversity. In this paper, we propose a novel paradigm that leverages glitches in gameplay videos, referring to visual anomalies that violate predefined physical laws, as a rich and scalable supervision source for physical world understanding. We introduce PhysGame, an meta information guided instruction-tuning dataset containing 140,057 glitch-centric question-answer pairs across five physical domains and sixteen fine-grained categories. To ensure data accuracy, we design a prompting strategy that utilizes gameplay metadata such as titles and descriptions to guide high-quality QA generation. Complementing PhysGame, we construct GameBench, an expert-annotated benchmark with 880 glitch-identified gameplay videos designed to evaluate physical reasoning capabilities. Extensive experiments show that PhysGame significantly enhances both Game2Real transferability, improving the real world physical reasoning performance of Qwen2.5VL by 2.5% on PhysBench, and Game2General transferability, yielding a 1.9% gain on the MVBench benchmark. Moreover, PhysGame-tuned models achieve a 3.7% absolute improvement on GameBench, demonstrating enhanced robustness in detecting physical implausibilities. These results indicate that learning from gameplay anomalies offers a scalable and effective pathway toward advancing physical world understanding in multimodal intelligence.