Token Predictors Are Not Planners: Building Physically Grounded Causal Reasoners

作者: Zheng Lu, Mingqi Gao, Qinlei Xie, Wanqi Zhong, Hanwen Cui, Heng Cao, Zirui Song, Yifan Yang, Chong Luo, Bei Liu, Yiming Li

分类: cs.AI

发布日期: 2026-06-01

备注: 77 pages, appendices included. Code: https://github.com/THUSI-Lab/Causal-Reasoner

💡 一句话要点

提出Causal-Plan-Bench和Causal-Plan-1M，提升具身智能体物理因果推理能力。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: 具身智能 因果推理 视觉-语言规划 物理世界 大规模数据集

📋 核心要点

现有具身智能体规划方法过度依赖语言先验，缺乏物理世界的因果推理能力。
提出Causal Planner，通过大规模因果推理数据训练，提升模型对物理逻辑的理解。
实验表明，Causal Planner在Causal-Plan-Bench上表现出色，并具有良好的泛化能力。

📝 摘要（中文）

现有的具身视觉-语言规划基准往往侧重于语言上的下一个token预测，而非物理上合理的下一个状态推理。这使得模型倾向于模仿统计语言先验，而非追踪因果依赖关系，从而将物理规划简化为浅层的序列建模。我们认为，可靠的物理自主性需要从语言驱动的token预测转向物理驱动的因果推理。为此，我们引入了Causal-Plan-Bench，这是一个高保真诊断套件，通过多阶段验证进行管理，以评估跨四个因果维度的具身规划。我们还构建了Causal-Plan-1M，这是一个百万级规模的语料库，包含由第一人称视角视频上四阶段标注流程产生的显式推理轨迹。广泛的评估表明，领先的模型仍然难以展示真正的物理行为能力，Gemini 3 Pro在我们的基准测试中仅达到38.18。相比之下，我们的训练方法使基于Qwen3-VL-8B构建的Causal Planner能够内化物理逻辑，从而实现更准确的下一状态估计。该模型实现了强大的领域内性能和跨基准泛化，并揭示了一个因果缩放定律：将因果训练数据扩展到一百万个实例会产生36.3%的相对增益，从33.22到45.28。总的来说，我们的工作为将智能体从肤浅的token预测器转变为具有物理基础的因果推理器迈出了坚实的一步。

🔬 方法详解

问题定义：现有具身智能体的视觉-语言规划模型，过度依赖语言的token预测，而忽略了物理世界的因果关系。这导致模型在复杂的物理环境中难以做出合理的规划，缺乏真正的物理自主性。现有方法的痛点在于无法有效学习和利用物理世界的因果知识，导致规划结果不符合物理规律。

核心思路：论文的核心思路是构建一个大规模的、包含显式因果推理轨迹的数据集，并训练模型学习这些因果关系，从而提升模型对物理世界的理解和规划能力。通过让模型学习“如果...那么...”的因果逻辑，使其能够更准确地预测下一步的状态，并做出更合理的规划。

技术框架：整体框架包含数据收集和模型训练两个主要阶段。数据收集阶段，作者构建了Causal-Plan-1M数据集，包含百万级规模的因果推理轨迹，这些轨迹通过一个四阶段的标注流程从第一人称视角视频中生成。模型训练阶段，作者提出了Causal Planner，基于Qwen3-VL-8B构建，并使用Causal-Plan-1M数据集进行训练。

关键创新：最重要的技术创新点在于构建了Causal-Plan-1M数据集，这是一个大规模的、包含显式因果推理轨迹的数据集。与现有数据集相比，Causal-Plan-1M更加注重物理世界的因果关系，能够更好地帮助模型学习物理逻辑。此外，论文还提出了Causal Scaling Law，表明增加因果训练数据可以显著提升模型性能。

关键设计：Causal-Plan-1M数据集的构建采用了四阶段标注流程，包括：1) 视频选择；2) 因果关系标注；3) 验证；4) 修正。Causal Planner模型基于Qwen3-VL-8B，并使用Causal-Plan-1M数据集进行训练。论文还探索了不同的训练策略，并发现使用大规模因果数据进行训练可以显著提升模型性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Causal Planner在Causal-Plan-Bench上取得了显著的性能提升，超越了现有的领先模型，例如Gemini 3 Pro。Causal Planner在Causal-Plan-Bench上的性能达到了45.28，而Gemini 3 Pro仅为38.18。此外，实验还验证了Causal Scaling Law，表明增加因果训练数据可以显著提升模型性能，将训练数据扩展到一百万个实例可以带来36.3%的相对增益。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能家居等领域，提升智能体在复杂物理环境中的自主规划能力。通过学习物理世界的因果关系，智能体可以更好地理解环境，做出更合理的决策，从而实现更安全、更高效的自主行为。未来，该研究可以进一步扩展到更复杂的物理环境和任务中。

📄 摘要（原文）

Current benchmarks for embodied vision-language planning often favor linguistic next-token prediction over physically grounded next-state reasoning. This rewards models that mimic statistical language priors rather than track causal dependencies, reducing physical planning to shallow sequence modeling. We argue that reliable physical autonomy requires a shift from linguistically grounded token prediction toward physically grounded causal reasoning. To this end, we introduce Causal-Plan-Bench, a high-fidelity diagnostic suite curated through multi-stage verification to evaluate embodied planning across four causal dimensions. We also construct Causal-Plan-1M, a million-scale corpus of explicit reasoning traces produced by a four-stage annotation pipeline over egocentric videos. Extensive evaluation shows that leading models still struggle to demonstrate genuine physical agency, with Gemini 3 Pro reaching only 38.18 on our benchmark. In contrast, our training recipe enables Causal Planner, built on Qwen3-VL-8B, to internalize physical logic for more accurate next-state estimation. The model achieves strong in-domain performance and cross-benchmark generalization, and reveals a Causal Scaling Law: scaling causal training data to one million instances yields a 36.3% relative gain, from 33.22 to 45.28. Overall, our work provides a concrete step toward turning agents from superficial token predictors into physically grounded causal reasoners.

Token Predictors Are Not Planners: Building Physically Grounded Causal Reasoners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理