Describe-Then-Act: Proactive Agent Steering via Distilled Language-Action World Models

📄 arXiv: 2603.23149v1 📥 PDF

作者: Massimiliano Pappa, Luca Romani, Valentino Sacco, Alessio Palma, Stéphane Lathuilière, Fabio Galasso, Xavier Alameda-Pineda, Indro Spinelli

分类: cs.AI

发布日期: 2026-03-24


💡 一句话要点

提出Dillo,通过蒸馏语言-动作世界模型实现主动Agent控制。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 知识蒸馏 语言模型 机器人控制 主动Agent 跨模态学习 动作预测

📋 核心要点

  1. 现有基于视觉模拟的世界模型在智能体控制中存在延迟过高的问题,限制了其在安全关键场景的应用。
  2. DILLO通过知识蒸馏,利用大型语言模型学习预测动作的语义结果,避免了耗时的视觉模拟。
  3. 实验表明,DILLO显著提升了智能体控制的速度和成功率,在MetaWorld和LIBERO等任务中表现出色。

📝 摘要(中文)

部署安全攸关的智能体需要在执行动作之前预测其后果。虽然世界模型为此提供了一种主动预测的范例,但当前依赖视觉模拟的方法会产生过高的延迟,通常每步超过几秒。本文挑战了视觉处理对于预防失败是必要的这一假设。我们证明,训练策略的潜在状态,结合其计划的动作,已经编码了足够的信息来预测动作结果,从而使视觉模拟对于预防失败变得多余。为此,我们引入了DILLO(DIstiLLed Language-ActiOn World Model),这是一个快速的控制层,将范式从“模拟-然后-行动”转变为“描述-然后-行动”。DILLO通过跨模态蒸馏进行训练,其中一个特权视觉语言模型教师离线标注轨迹,而一个潜在条件的大型语言模型学生学习预测语义结果。这创建了一个纯文本的推理路径,完全绕过了繁重的视觉生成,实现了比基线快14倍的速度。在MetaWorld和LIBERO上的实验表明,DILLO产生了对下一个状态的高保真描述,并且能够控制策略,在任务中的平均成功率提高了高达15个百分点和9.3个百分点。

🔬 方法详解

问题定义:现有基于视觉模拟的世界模型在智能体控制中存在计算成本高、延迟大的问题。尤其是在需要快速响应的安全关键场景下,这种延迟是不可接受的。因此,如何降低世界模型的计算复杂度,实现快速、准确的动作预测,是本文要解决的核心问题。现有方法依赖于视觉信息的生成和处理,这成为了性能瓶颈。

核心思路:本文的核心思路是利用知识蒸馏,将视觉语言模型(VLM)的知识迁移到大型语言模型(LLM)上,从而构建一个纯文本的推理路径。具体来说,VLM作为教师模型,负责标注离线轨迹,提供动作的语义描述。LLM作为学生模型,学习根据智能体的潜在状态和计划动作,预测未来的语义结果。这样,在推理阶段,就可以直接使用LLM进行预测,避免了耗时的视觉模拟。

技术框架:DILLO的整体框架包含两个主要阶段:离线训练阶段和在线推理阶段。在离线训练阶段,首先使用一个预训练的VLM(教师模型)对智能体的历史轨迹进行标注,生成动作的语义描述。然后,使用这些标注数据训练一个潜在条件的大型语言模型(LLM,学生模型),使其能够根据智能体的潜在状态和计划动作,预测未来的语义结果。在在线推理阶段,智能体首先根据当前状态和目标,生成一系列可能的动作序列。然后,使用训练好的LLM对每个动作序列进行评估,预测其未来的语义结果。最后,选择预测结果最优的动作序列执行。

关键创新:本文最重要的技术创新在于提出了“描述-然后-行动”的范式,将传统的“模拟-然后-行动”范式中的视觉模拟环节替换为语言描述。这种方法避免了耗时的视觉信息处理,显著提高了智能体控制的速度。此外,通过知识蒸馏,将VLM的知识迁移到LLM上,使得LLM能够学习到动作的语义信息,从而实现准确的动作预测。

关键设计:在训练过程中,使用了交叉熵损失函数来训练LLM,使其能够准确预测动作的语义结果。此外,为了提高LLM的泛化能力,使用了数据增强技术,例如随机替换、删除和插入等。在推理过程中,使用了束搜索算法来生成一系列可能的动作序列,并选择预测结果最优的序列执行。具体的参数设置(例如,LLM的网络结构、训练轮数、学习率等)在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DILLO在MetaWorld和LIBERO等任务中取得了显著的性能提升。与基线方法相比,DILLO实现了14倍的速度提升,并且在任务中的平均成功率提高了高达15个百分点和9.3个百分点。这些结果表明,DILLO是一种高效、准确的智能体控制方法。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、游戏AI等领域。通过快速预测动作后果,可以提高智能体的安全性和效率,尤其是在需要快速响应的复杂环境中。例如,在自动驾驶中,可以利用该方法预测车辆在不同操作下的行驶轨迹,从而避免碰撞事故。

📄 摘要(原文)

Deploying safety-critical agents requires anticipating the consequences of actions before they are executed. While world models offer a paradigm for this proactive foresight, current approaches relying on visual simulation incur prohibitive latencies, often exceeding several seconds per step. In this work, we challenge the assumption that visual processing is necessary for failure prevention. We show that a trained policy's latent state, combined with its planned actions, already encodes sufficient information to anticipate action outcomes, making visual simulation redundant for failure prevention. To this end, we introduce DILLO (DIstiLLed Language-ActiOn World Model), a fast steering layer that shifts the paradigm from "simulate-then-act" to "describe-then-act." DILLO is trained via cross-modal distillation, where a privileged Vision Language Model teacher annotates offline trajectories and a latent-conditioned Large Language Model student learns to predict semantic outcomes. This creates a text-only inference path, bypassing heavy visual generation entirely, achieving a 14x speedup over baselines. Experiments on MetaWorld and LIBERO demonstrate that DILLO produces high-fidelity descriptions of the next state and is able to steer the policy, improving episode success rate by up to 15 pp and 9.3 pp on average across tasks.