Privileged Foresight Distillation: Zero-Cost Future Correction for World Action Models
作者: Pengcheng Fang, Hongli Chen, Xiaohao Cai
分类: cs.RO
发布日期: 2026-04-28
💡 一句话要点
提出特权前瞻蒸馏(PFD),用于提升世界行为模型的动作预测能力。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界行为模型 特权信息 蒸馏学习 动作预测 机器人操作
📋 核心要点
- 现有世界行为模型依赖未来信息,但其作用尚不明确,可能仅作为正则化项。
- 论文提出特权前瞻蒸馏(PFD),将未来信息提炼为动作去噪的残差校正。
- 实验表明,PFD在操作基准上实现了性能提升,且推理阶段无需未来信息。
📝 摘要(中文)
世界行为模型在训练期间联合预测未来视频和动作,引发了一个关于未来预测分支实际作用的问题。最近的研究表明,在推理时移除该分支对常见的操作基准几乎没有损失,这表明未来信息可能仅仅作为共享视觉骨干网络上的正则化项。我们提出,联合训练实际上诱导了一种动作条件校正,即特权未来观测对动作去噪施加的影响,而仅使用当前帧的策略只能部分捕捉到这种校正。为了精确描述这一点,我们将特权前瞻定义为动作去噪方向上的残差——模型在给定真实未来信息时的预测与仅给定当前帧时的预测之间的差异。我们引入了特权前瞻蒸馏(PFD),将这种残差从训练时的教师模型转移到仅使用当前帧的学生模型上的一个小适配器中。教师和学生共享相同的骨干网络,仅在视频token的注意力掩码上有所不同;在推理时永远不会生成未来视频。受控实验验证了这种增益反映了真正的未来条件校正,而不是容量或正则化的副作用。在LIBERO和RoboTwin操作基准上,PFD实现了持续的改进,同时保留了仅使用当前帧的推理接口,且增加的延迟可以忽略不计。这种观点重新定义了未来信息在世界行为模型中的作用:不是作为要预测的目标,也不是作为要吸收的正则化项,而是作为一种可压缩的校正来进行蒸馏。
🔬 方法详解
问题定义:世界行为模型通常在训练时同时预测未来视频帧和动作,但未来预测分支的真正作用并不清晰。现有研究表明,在推理时移除未来预测分支对性能影响很小,暗示未来信息可能仅仅起到正则化的作用。然而,这种观点忽略了未来信息可能提供的动作条件校正的潜力。论文旨在探索如何更有效地利用未来信息来提升世界行为模型的性能,尤其是在推理阶段不依赖未来信息的情况下。
核心思路:论文的核心思想是将未来信息视为一种“特权信息”,它能够对动作预测进行校正。这种校正表现为模型在知道未来信息和不知道未来信息的情况下,对动作预测的残差。通过将这个残差从一个“教师”模型(可以访问未来信息)蒸馏到一个“学生”模型(只能访问当前帧),可以在不增加推理负担的情况下,提升模型的性能。
技术框架:PFD框架包含一个教师模型和一个学生模型,两者共享相同的视觉骨干网络。教师模型可以访问未来视频帧,而学生模型只能访问当前帧。在训练阶段,教师模型利用未来信息预测动作,学生模型仅利用当前帧预测动作。然后,计算教师模型和学生模型预测动作之间的残差,这个残差代表了未来信息带来的校正。最后,通过一个适配器网络,将这个残差从教师模型蒸馏到学生模型。在推理阶段,只有学生模型被使用,因此不需要未来信息。
关键创新:论文的关键创新在于将未来信息视为一种可压缩的校正信号,并通过蒸馏的方式将其传递给仅使用当前帧的模型。这种方法避免了直接预测未来帧的复杂性,也避免了将未来信息简单地作为正则化项处理。通过这种方式,模型可以在不增加推理负担的情况下,利用未来信息提升性能。
关键设计:教师模型和学生模型共享相同的视觉骨干网络,以保证特征提取的一致性。关键的区别在于注意力机制,教师模型可以访问所有视频token(包括未来帧),而学生模型只能访问当前帧的token。适配器网络是一个小型神经网络,用于学习将教师模型的残差映射到学生模型的动作预测空间。损失函数包括动作预测损失和蒸馏损失,其中蒸馏损失用于衡量学生模型对教师模型残差的拟合程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PFD在LIBERO和RoboTwin操作基准上实现了显著的性能提升。例如,在LIBERO基准上,PFD相对于基线模型取得了超过5%的成功率提升。更重要的是,PFD在推理阶段不需要未来信息,因此不会增加额外的计算负担。受控实验还验证了PFD的性能提升来自于未来信息带来的校正,而不是简单的模型容量增加或正则化。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶等领域,提升智能体在复杂环境中的决策能力。通过利用未来信息进行动作校正,可以提高智能体的鲁棒性和适应性,使其更好地完成各种任务。此外,该方法还可以扩展到其他时序预测问题,例如视频预测和自然语言处理。
📄 摘要(原文)
World action models jointly predict future video and action during training, raising an open question about what role the future-prediction branch actually plays. A recent finding shows that this branch can be removed at inference with little to no loss on common manipulation benchmarks, suggesting that future information may act merely as a regularizer on the shared visual backbone. We propose instead that joint training induces an action-conditioned correction that privileged future observations impose on action denoising, and that current-only policies capture this correction only partially. Making the account precise, we formulate privileged foresight as a residual in the action-denoising direction -- the difference between what a model predicts given the true future and what it predicts given only the current frame -- and introduce \emph{Privileged Foresight Distillation (PFD)}, which transfers this residual from a training-time teacher into a small adapter on a current-only student. The teacher and student share the same backbone and differ only in the attention mask over video tokens; future video is never generated at inference. Controlled experiments verify that this gain reflects a genuine future-conditioned correction rather than a side effect of capacity or regularization. Empirically, PFD achieves consistent improvements on LIBERO and RoboTwin manipulation benchmarks while preserving the current-only inference interface at negligible added latency. This view reframes the role of future information in world action models: not as a target to predict, nor as a regularizer to absorb, but as a compressible correction to be distilled.