Task Reconstruction and Extrapolation for $π_0$ using Text Latent

📄 arXiv: 2505.03500v4 📥 PDF

作者: Quanyi Li

分类: cs.RO

发布日期: 2025-05-06 (更新: 2025-08-03)


💡 一句话要点

提出基于文本隐变量插值的任务重构与外推方法,提升VLA在组合任务中的泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 任务外推 文本隐变量 行为重构 机器人操作

📋 核心要点

  1. VLA模型在组合不同任务技能时泛化能力不足,难以完成未见过的任务组合。
  2. 通过在推理时对VLA的文本隐变量进行插值,可以有效重组不同任务的行为,提升泛化能力。
  3. 在libero-ood基准测试中,该方法使VLA的成功率从<15%提升至83%,显著优于现有方法。

📝 摘要(中文)

视觉-语言-动作模型(VLA)在已演示的任务上通常表现出色,但在需要外推时,即以新颖的方式组合来自不同任务的技能时,会遇到显著困难。例如,VLA可能成功地将奶油奶酪放入碗中,并将碗放在柜子上,但仍然无法将奶油奶酪放在柜子上。本文证明,通过在推理时操纵VLA的内部表示,可以有效地重组来自不同任务的行为。具体而言,我们通过平均特定基础任务的所有演示轨迹的文本token的隐藏状态来识别文本隐变量。为了执行外推任务,我们可以对两个基础任务的文本隐变量进行时间插值,并将其添加回文本隐藏状态,从而依次激活来自两个任务的子行为。我们使用新创建的libero-ood基准评估了这种方法,该基准包含从标准LIBERO套件外推的20个任务。libero-ood上的结果表明,所有SOTA VLA的成功率均<15%,而使用文本隐变量插值的π0的成功率达到83%。进一步的定性分析表明,VLA倾向于表现出空间过拟合,将对象名称映射到已演示的位置,而不是实现真正的对象和目标理解。此外,我们发现解码文本隐变量会产生人类无法读取的提示,但这些提示仍然可以指示VLA在标准LIBERO套件上实现70%的成功率,从而实现私有指令或后门攻击。

🔬 方法详解

问题定义:现有的视觉-语言-动作模型(VLA)在单个任务上表现良好,但当需要将多个任务的技能组合起来完成新的任务时,性能会急剧下降。例如,模型可能学会了放置奶油奶酪和放置碗两个任务,但无法完成将奶油奶酪放置在碗上的任务。这种泛化能力不足限制了VLA在复杂环境中的应用。

核心思路:论文的核心思路是通过操纵VLA的内部表示,特别是文本隐变量,来实现任务的重构和外推。通过对不同任务的文本隐变量进行插值,可以激活来自不同任务的子行为,从而组合成新的行为序列。这种方法的核心在于利用文本隐变量作为行为的抽象表示,并通过插值实现行为的平滑过渡和组合。

技术框架:该方法主要包含以下几个步骤:1) 对于每个基础任务,收集其所有演示轨迹,并提取文本token的隐藏状态。2) 对每个任务的文本token隐藏状态进行平均,得到该任务的文本隐变量。3) 对于需要外推的任务,对两个相关基础任务的文本隐变量进行时间插值,生成新的文本隐变量。4) 将插值后的文本隐变量添加回原始的文本隐藏状态,从而影响VLA的行为。5) VLA根据修改后的文本隐藏状态生成动作序列,完成外推任务。

关键创新:该方法最重要的创新点在于利用文本隐变量作为行为的抽象表示,并通过插值实现行为的组合。与直接学习端到端的映射关系不同,该方法通过操纵内部表示来实现任务的重构,从而提高了泛化能力。此外,该方法还揭示了VLA可能存在空间过拟合的问题,即模型倾向于将对象名称与特定位置关联,而不是真正理解对象和目标。

关键设计:关键设计包括:1) 文本隐变量的提取方式,即通过平均文本token的隐藏状态来获得任务的抽象表示。2) 插值方式,即对两个基础任务的文本隐变量进行线性插值,以实现行为的平滑过渡。3) 将插值后的文本隐变量添加回原始文本隐藏状态的方式,需要仔细调整添加的权重,以避免破坏原始信息的完整性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在libero-ood基准测试中,所有SOTA VLA的成功率均低于15%,而使用文本隐变量插值的π0模型的成功率达到了83%,显著优于现有方法。此外,研究还发现,解码文本隐变量可以生成人类无法理解的指令,但这些指令仍然可以使VLA在标准LIBERO套件上达到70%的成功率,这表明VLA可能存在安全漏洞。

🎯 应用场景

该研究成果可应用于机器人操作、自动化控制等领域,提升机器人在复杂环境中的适应性和泛化能力。例如,可以使机器人在没有明确指令的情况下,根据已有的技能组合完成新的任务,从而提高生产效率和降低人工成本。此外,该研究还揭示了VLA模型可能存在的安全隐患,为模型安全性的研究提供了新的思路。

📄 摘要(原文)

Vision-language-action models (VLAs) often achieve high performance on demonstrated tasks but struggle significantly when required to extrapolate, combining skills learned from different tasks in novel ways. For instance, VLAs might successfully put the cream cheese in the bowl and put the bowl on top of the cabinet, yet still fail to put the cream cheese on top of the cabinet. In this work, we demonstrate that behaviors from distinct tasks can be effectively recombined by manipulating the VLA's internal representations at inference time. Concretely, we identify the text latent by averaging the text tokens' hidden states across all demonstrated trajectories for a specific base task. For executing an extrapolated task, we can temporally interpolate the text latent of the two base tasks and add it back to the text hidden states, so sub-behaviors from the two tasks will be activated sequentially. We evaluate this approach using the newly created libero-ood benchmark, featuring 20 tasks extrapolated from standard LIBERO suites. The results on libero-ood show that all SOTA VLAs achieve < 15% success rate, while $\pi0$ with text latent interpolation reaches an 83% success rate. Further qualitative analysis reveals a tendency for VLAs to exhibit spatial overfitting, mapping object names to demonstrated locations rather than achieving genuine object and goal understanding. Additionally, we find that decoding the text latent yields human-unreadable prompts that can nevertheless instruct the VLA to achieve a 70% success rate on standard LIBERO suites, enabling private instruction or backdoor attacks.