Token Predictors Are Not Planners: Building Physically Grounded Causal Reasoners
作者: Zheng Lu, Mingqi Gao, Qinlei Xie, Wanqi Zhong, Hanwen Cui, Heng Cao, Zirui Song, Yifan Yang, Chong Luo, Bei Liu, Yiming Li
分类: cs.AI
发布日期: 2026-06-01
备注: 77 pages, appendices included. Code: https://github.com/THUSI-Lab/Causal-Reasoner
💡 一句话要点
提出Causal-Plan-Bench和Causal-Plan-1M,提升具身智能体物理因果推理能力。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 具身智能 因果推理 视觉-语言规划 物理世界 大规模数据集
📋 核心要点
- 现有具身智能体规划方法过度依赖语言先验,缺乏物理世界的因果推理能力。
- 提出Causal Planner,通过大规模因果推理数据训练,提升模型对物理逻辑的理解。
- 实验表明,Causal Planner在Causal-Plan-Bench上表现出色,并具有良好的泛化能力。
📝 摘要(中文)
现有的具身视觉-语言规划基准往往侧重于语言上的下一个token预测,而非物理上合理的下一个状态推理。这使得模型倾向于模仿统计语言先验,而非追踪因果依赖关系,从而将物理规划简化为浅层的序列建模。我们认为,可靠的物理自主性需要从语言驱动的token预测转向物理驱动的因果推理。为此,我们引入了Causal-Plan-Bench,这是一个高保真诊断套件,通过多阶段验证进行管理,以评估跨四个因果维度的具身规划。我们还构建了Causal-Plan-1M,这是一个百万级规模的语料库,包含由第一人称视角视频上四阶段标注流程产生的显式推理轨迹。广泛的评估表明,领先的模型仍然难以展示真正的物理行为能力,Gemini 3 Pro在我们的基准测试中仅达到38.18。相比之下,我们的训练方法使基于Qwen3-VL-8B构建的Causal Planner能够内化物理逻辑,从而实现更准确的下一状态估计。该模型实现了强大的领域内性能和跨基准泛化,并揭示了一个因果缩放定律:将因果训练数据扩展到一百万个实例会产生36.3%的相对增益,从33.22到45.28。总的来说,我们的工作为将智能体从肤浅的token预测器转变为具有物理基础的因果推理器迈出了坚实的一步。
🔬 方法详解
问题定义:现有具身智能体的视觉-语言规划模型,过度依赖语言的token预测,而忽略了物理世界的因果关系。这导致模型在复杂的物理环境中难以做出合理的规划,缺乏真正的物理自主性。现有方法的痛点在于无法有效学习和利用物理世界的因果知识,导致规划结果不符合物理规律。
核心思路:论文的核心思路是构建一个大规模的、包含显式因果推理轨迹的数据集,并训练模型学习这些因果关系,从而提升模型对物理世界的理解和规划能力。通过让模型学习“如果...那么...”的因果逻辑,使其能够更准确地预测下一步的状态,并做出更合理的规划。
技术框架:整体框架包含数据收集和模型训练两个主要阶段。数据收集阶段,作者构建了Causal-Plan-1M数据集,包含百万级规模的因果推理轨迹,这些轨迹通过一个四阶段的标注流程从第一人称视角视频中生成。模型训练阶段,作者提出了Causal Planner,基于Qwen3-VL-8B构建,并使用Causal-Plan-1M数据集进行训练。
关键创新:最重要的技术创新点在于构建了Causal-Plan-1M数据集,这是一个大规模的、包含显式因果推理轨迹的数据集。与现有数据集相比,Causal-Plan-1M更加注重物理世界的因果关系,能够更好地帮助模型学习物理逻辑。此外,论文还提出了Causal Scaling Law,表明增加因果训练数据可以显著提升模型性能。
关键设计:Causal-Plan-1M数据集的构建采用了四阶段标注流程,包括:1) 视频选择;2) 因果关系标注;3) 验证;4) 修正。Causal Planner模型基于Qwen3-VL-8B,并使用Causal-Plan-1M数据集进行训练。论文还探索了不同的训练策略,并发现使用大规模因果数据进行训练可以显著提升模型性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Causal Planner在Causal-Plan-Bench上取得了显著的性能提升,超越了现有的领先模型,例如Gemini 3 Pro。Causal Planner在Causal-Plan-Bench上的性能达到了45.28,而Gemini 3 Pro仅为38.18。此外,实验还验证了Causal Scaling Law,表明增加因果训练数据可以显著提升模型性能,将训练数据扩展到一百万个实例可以带来36.3%的相对增益。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、智能家居等领域,提升智能体在复杂物理环境中的自主规划能力。通过学习物理世界的因果关系,智能体可以更好地理解环境,做出更合理的决策,从而实现更安全、更高效的自主行为。未来,该研究可以进一步扩展到更复杂的物理环境和任务中。
📄 摘要(原文)
Current benchmarks for embodied vision-language planning often favor linguistic next-token prediction over physically grounded next-state reasoning. This rewards models that mimic statistical language priors rather than track causal dependencies, reducing physical planning to shallow sequence modeling. We argue that reliable physical autonomy requires a shift from linguistically grounded token prediction toward physically grounded causal reasoning. To this end, we introduce Causal-Plan-Bench, a high-fidelity diagnostic suite curated through multi-stage verification to evaluate embodied planning across four causal dimensions. We also construct Causal-Plan-1M, a million-scale corpus of explicit reasoning traces produced by a four-stage annotation pipeline over egocentric videos. Extensive evaluation shows that leading models still struggle to demonstrate genuine physical agency, with Gemini 3 Pro reaching only 38.18 on our benchmark. In contrast, our training recipe enables Causal Planner, built on Qwen3-VL-8B, to internalize physical logic for more accurate next-state estimation. The model achieves strong in-domain performance and cross-benchmark generalization, and reveals a Causal Scaling Law: scaling causal training data to one million instances yields a 36.3% relative gain, from 33.22 to 45.28. Overall, our work provides a concrete step toward turning agents from superficial token predictors into physically grounded causal reasoners.