DISC: Decoupling Instruction from State-Conditioned Control via Policy Generation
作者: Hanxiang Ren, Pei Zhou, Xunzhe Zhou, Yanchao Yang
分类: cs.RO, cs.AI, cs.LG
发布日期: 2026-05-20
🔗 代码/项目: GITHUB
💡 一句话要点
DISC:通过策略生成解耦指令与状态条件控制,避免视觉捷径。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言条件控制 策略生成 超网络 解耦学习 机器人操作
📋 核心要点
- 现有语言条件控制策略易受观察泄露影响,导致模型学习视觉捷径而非理解语言指令。
- DISC通过超网络从指令生成任务特定策略参数,避免策略直接访问视觉信息,强制模型依赖语言。
- 实验表明,DISC在多个基准测试中优于纠缠基线,尤其在复杂任务和真实场景中优势明显。
📝 摘要(中文)
语言条件操纵策略通常通过共享网络参数处理指令和观察。这种任务-状态纠缠为观察泄露提供了途径——网络学习绕过语言基础的场景到动作的捷径。DISC在结构上消除了这种失败。DISC不是将通用策略建立在语言的基础上,而是使用超网络仅从指令生成特定于任务的视觉运动策略的整个参数集。生成的策略从不直接访问语言;因此,其任务感知必须来自语言。因此,观察泄露没有出现的途径。另一方面,生成连贯的高维策略权重本身就是一个具有挑战性的问题。我们用一个两阶段的超网络来解决这个问题,其细化阶段将基于梯度的优化结构嵌入为前馈归纳偏差,从而在没有实际梯度计算的情况下产生全局一致的参数。DISC完全从头开始在标准数据预算上进行训练,在LIBERO-90和Meta-World上优于所有纠缠的基线,在复杂、长时程任务上的优势扩大——并且超过了大规模预训练的$π_0$,尽管没有使用外部预训练数据。在一个所有任务共享相同视觉环境的真实世界基准上,DISC大大优于纠缠的替代方案,直接证实了语言生成的策略参数,而不是视觉捷径,驱动了行为。超网络进一步学习语义结构化的参数流形,从而能够从最少的演示中进行少样本适应,并在释义指令中实现稳健的泛化。
🔬 方法详解
问题定义:现有语言条件控制策略存在观察泄露问题,即模型可能直接从视觉输入推断动作,而忽略或弱化了语言指令的作用。这导致模型在视觉环境变化时泛化能力差,无法真正理解和执行语言指令。
核心思路:DISC的核心思路是将语言指令和视觉状态的处理解耦。具体来说,DISC使用一个超网络(Hypernetwork)仅根据语言指令生成特定任务的策略网络的参数,而策略网络只接收视觉输入,不直接接触语言信息。这样,策略网络的行为完全由语言指令决定,避免了视觉捷径的产生。
技术框架:DISC包含两个主要模块:指令编码器(Instruction Encoder)和策略生成器(Policy Generator)。指令编码器将语言指令编码成一个向量表示。策略生成器是一个两阶段的超网络,它接收指令编码向量,并生成策略网络的参数。第一阶段生成初始参数,第二阶段通过一个模拟梯度下降的过程对参数进行优化。
关键创新:DISC最重要的创新在于其解耦的架构和两阶段的超网络设计。解耦架构避免了观察泄露,强制模型依赖语言指令。两阶段超网络通过模拟梯度下降,有效地生成了高质量的策略网络参数,避免了直接生成高维参数带来的困难。
关键设计:DISC的关键设计包括:1) 使用Transformer作为指令编码器,提取语言指令的语义信息;2) 两阶段超网络,第一阶段生成初始策略参数,第二阶段通过模拟梯度下降进行参数细化;3) 损失函数包括模仿学习损失和正则化项,鼓励生成的策略与专家策略相似,并避免参数过拟合。
🖼️ 关键图片
📊 实验亮点
DISC在LIBERO-90和Meta-World等基准测试中显著优于纠缠基线,尤其在长时程任务上优势更加明显。在真实世界机器人操作任务中,DISC也表现出优越的性能,验证了其避免视觉捷径的能力。值得注意的是,DISC在没有外部预训练数据的情况下,性能甚至超过了大规模预训练模型$π_0$。
🎯 应用场景
DISC具有广泛的应用前景,例如机器人操作、自动驾驶、游戏AI等领域。它可以用于训练能够根据自然语言指令执行复杂任务的智能体,提高人机交互的自然性和效率。此外,DISC的解耦设计也有助于提高模型的泛化能力和鲁棒性,使其能够适应不同的环境和任务。
📄 摘要(原文)
Language-conditioned manipulation policies typically process instructions and observations through shared network parameters. This task-state entanglement provides a pathway for observation leakage -- networks learn scene-to-action shortcuts that bypass language grounding entirely. DISC eliminates this failure structurally. Rather than conditioning a universal policy on language, DISC uses a hypernetwork to generate the entire parameter set of a task-specific visuomotor policy from the instruction alone. The generated policy never directly accesses language; therefore, its task-awareness must come from the language. Consequently, observation leakage has no pathway to emerge. On the other hand, generating coherent high-dimensional policy weights is itself a challenging problem. We address it with a two-stage hypernetwork whose refinement stage embeds the structure of gradient-based optimization as a feed-forward inductive bias, producing globally consistent parameters without actual gradient computation. Trained entirely from scratch on standard data budgets, DISC outperforms all entangled baselines on LIBERO-90 and Meta-World, with advantages that widen on complex, long-horizon tasks -- and surpasses the large-scale pretrained $π_0$ despite using no external pretraining data. On a real-world benchmark where all tasks share identical visual context, DISC substantially outperforms entangled alternatives, directly confirming that language-generated policy parameters, not visual shortcuts, drive behavior. The hypernetwork further learns a semantically structured parameter manifold that enables few-shot adaptation from minimal demonstrations and robust generalization across paraphrased instructions. Our code is available at: {https://github.com/ReNginx/DISC}.