CKT-WAM: Parameter-Efficient Context Knowledge Transfer Between World Action Models

📄 arXiv: 2605.06247v1 📥 PDF

作者: Yuhua Jiang, Yijun Guo, Hongbing Yang, Guojun Lei, Nuo Chen, Yinuo Zhang, Shaoqiang Yan, Bo Lin, Feifei Gao, Biqing Qi

分类: cs.RO

发布日期: 2026-05-07

🔗 代码/项目: GITHUB


💡 一句话要点

提出CKT-WAM,通过上下文知识迁移实现异构世界行动模型的参数高效泛化。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 世界行动模型 知识迁移 参数高效 文本嵌入 具身控制

📋 核心要点

  1. 现有世界行动模型在异构环境迁移时面临潜在接口不匹配和高适应成本等问题。
  2. CKT-WAM通过文本嵌入空间的上下文知识迁移,实现了教师模型到学生模型的知识传递。
  3. 实验表明,CKT-WAM在零样本泛化和真实世界操作任务中均取得了显著的性能提升。

📝 摘要(中文)

世界行动模型(WAMs)为具身控制提供了一个强大的生成框架,但由于潜在接口不匹配、高昂的适应成本以及传统蒸馏目标的僵化性,跨异构WAMs迁移知识仍然具有挑战性。我们提出了CKT-WAM,一个参数高效的上下文知识迁移框架,它通过文本嵌入空间中的紧凑上下文将教师WAM的知识迁移到学生WAM,而不是输出模仿或密集隐藏状态匹配。具体来说,CKT-WAM提取中间教师隐藏状态,通过压缩器的可学习查询交叉注意力(LQCA)减少token数量,并通过一个常开的广义适配器、一个轻量级路由器和稀疏激活的专用适配器来转换它们。然后将生成的上下文附加到学生的条件文本嵌入中,从而以最小的架构修改将迁移的知识注入到学生中。实验表明,CKT-WAM持续提高零样本泛化能力,并在LIBERO-Plus上实现了最佳的整体性能,仅用1.17%的可训练参数就达到了86.1%的总成功率,同时接近完全微调的性能。除了模拟之外,CKT-WAM还展示了强大的真实世界长程操作能力,在四个多步骤和长程任务中实现了83.3%的最佳平均成功率。

🔬 方法详解

问题定义:现有世界行动模型(WAMs)在具身控制领域取得了显著进展,但如何将一个训练好的WAM的知识有效地迁移到另一个具有不同结构或任务的WAM仍然是一个挑战。传统的知识迁移方法,如输出模仿或隐藏状态匹配,往往需要大量的参数调整和计算资源,且容易受到潜在接口不匹配的影响。因此,需要一种参数高效且能有效处理异构WAMs之间知识迁移的方法。

核心思路:CKT-WAM的核心思路是通过文本嵌入空间中的紧凑上下文来传递知识。具体来说,它将教师WAM的中间隐藏状态压缩成一个文本嵌入向量,然后将该向量作为上下文信息注入到学生WAM的文本嵌入中。这种方法避免了直接模仿输出或匹配隐藏状态,从而降低了计算成本和对齐难度。同时,利用文本嵌入空间的语义表达能力,可以更好地捕捉教师WAM的知识。

技术框架:CKT-WAM的整体框架包括以下几个主要模块:1) 教师WAM:提供需要迁移的知识。2) 压缩器(Compressor):使用可学习查询交叉注意力(LQCA)将教师WAM的中间隐藏状态压缩成紧凑的token表示。3) 适配器(Adapter):包含一个常开的广义适配器、一个轻量级路由器和稀疏激活的专用适配器,用于将压缩后的token表示转换为适合学生WAM的上下文向量。4) 学生WAM:接收来自教师WAM的上下文信息,并利用这些信息来提高自身的性能。上下文向量被附加到学生WAM的条件文本嵌入中,从而实现知识的注入。

关键创新:CKT-WAM的关键创新在于使用文本嵌入空间作为知识迁移的桥梁。与传统的知识迁移方法相比,CKT-WAM具有以下优势:1) 参数高效:通过压缩和适配器,CKT-WAM只需要少量可训练参数即可实现知识迁移。2) 异构兼容:文本嵌入空间具有较强的语义表达能力,可以有效处理异构WAMs之间的知识差异。3) 易于集成:CKT-WAM的上下文注入方式对学生WAM的架构影响较小,易于集成到现有的系统中。

关键设计:1) 可学习查询交叉注意力(LQCA):用于压缩教师WAM的隐藏状态,减少token数量,降低计算成本。2) 广义适配器:始终激活,用于提供基本的知识迁移。3) 轻量级路由器:根据输入选择激活哪些专用适配器,实现更精细的知识迁移。4) 稀疏激活的专用适配器:针对不同的任务或场景进行优化,提高知识迁移的效率。5) 损失函数:主要采用行为克隆损失,鼓励学生WAM模仿教师WAM的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CKT-WAM在LIBERO-Plus数据集上取得了显著的性能提升,仅使用1.17%的可训练参数就达到了86.1%的总成功率,接近完全微调的性能。在真实世界长程操作任务中,CKT-WAM也取得了最佳的平均成功率83.3%,优于其他基线方法,验证了其在实际应用中的有效性。

🎯 应用场景

CKT-WAM具有广泛的应用前景,例如机器人操作、自动驾驶、游戏AI等领域。它可以用于将模拟环境中训练好的WAM迁移到真实世界机器人上,从而降低机器人学习的成本。此外,CKT-WAM还可以用于构建更强大的通用智能体,使其能够适应不同的任务和环境。

📄 摘要(原文)

World action models (WAMs) provide a powerful generative framework for embodied control, yet transferring knowledge across heterogeneous WAMs remains challenging due to mismatched latent interfaces, high adaptation cost, and the rigidity of conventional distillation objectives. We propose \textbf{CKT-WAM}, a parameter-efficient \textbf{C}ontext \textbf{K}nowledge \textbf{T}ransfer framework that transfers teacher WAM's knowledge into a student WAM through a compact context in the text embedding space, rather than output imitation or dense hidden-state matching. Specifically, CKT-WAM extracts intermediate teacher hidden states, reduces the number of tokens via compressors' learnable-query cross attention (LQCA), and transforms them through an always-on generalized adapter, a lightweight router, and sparsely activated specialized adapters. The resulting context is then appended to the student's conditioning textual embeddings, thereby injecting the transferred knowledge into the student with minimal architectural modification. Experiments show that CKT-WAM consistently improves zero-shot generalization and achieves the best overall performance on LIBERO-Plus, reaching 86.1\% total success rate with only 1.17\% trainable parameters, while approaching full fine-tuning performance. Beyond simulation, CKT-WAM also demonstrates strong real-world long-horizon manipulation ability, achieving the best average success rate of 83.3\% across four multi-step and long-horizon tasks. Code is available at https://github.com/YuhuaJiang2002/CKT-WAM.