Premover: Fast Vision-Language-Action Control by Acting Before Instructions Are Complete
作者: Joonha Park, Jiseung Jeong, Taesik Gong
分类: cs.RO, cs.AI
发布日期: 2026-05-12
💡 一句话要点
Premover:通过指令未完成前的预执行加速视觉-语言-动作控制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作控制 机器人 预计算 人机交互 指令理解
📋 核心要点
- 现有VLA策略在用户完成指令输入后才开始执行,忽略了用户输入过程中的时间,造成效率损失。
- Premover通过预计算模块,在用户输入指令期间提前预测并聚焦于相关图像区域,为后续动作执行做准备。
- 实验表明,Premover在保证成功率的同时,显著减少了VLA策略的实际运行时间,提升了交互效率。
📝 摘要(中文)
视觉-语言-动作(VLA)策略通常在用户完成输入(文本或语音)后才开始执行动作。然而,在实际部署中,用户往往需要花费数秒来输入请求,导致策略在交互过程中长时间处于空闲状态。本文提出Premover,一个轻量级模块,将这段空闲时间转化为有用的预计算。Premover冻结VLA骨干网络,并附加两个小型投影头,分别处理图像块和语言token,将骨干网络的一个中间层映射到共享空间。由此产生的焦点图由模拟器渲染的目标对象分割掩码监督,并作为下一步图像token的逐块重加权。一个从流式前缀联合训练的标量就绪阈值决定了策略何时开始执行动作。在LIBERO基准测试套件上,Premover将平均实际运行时间从34.0秒减少到29.4秒,降低了13.6%,同时保持了与完整提示基线相当的成功率(95.1% vs. 95.0%);相比之下,简单的预执行策略性能下降到66.4%。
🔬 方法详解
问题定义:现有的视觉-语言-动作(VLA)策略通常在用户完成指令输入后才开始执行动作,忽略了用户输入过程中的时间。用户在输入指令时,机器人处于空闲状态,造成了交互效率的损失。因此,如何利用这段空闲时间,提前进行预计算,加速VLA策略的执行,是本文要解决的问题。现有方法要么直接在不完整指令上执行,导致性能大幅下降,要么需要复杂的模型修改,增加了部署难度。
核心思路:Premover的核心思路是在用户输入指令的过程中,提前预测并聚焦于与指令相关的图像区域,为后续的动作执行做准备。通过学习一个焦点图,对图像特征进行加权,从而引导模型关注重要的视觉信息。同时,引入一个就绪阈值,判断何时开始执行动作,避免过早执行导致性能下降。
技术框架:Premover的整体架构是在现有的VLA骨干网络的基础上,添加两个小型投影头,分别处理图像块和语言token。这两个投影头将骨干网络的一个中间层映射到共享空间,生成焦点图。焦点图由模拟器渲染的目标对象分割掩码监督。在执行动作时,焦点图作为图像token的逐块重加权。此外,还有一个标量就绪阈值,用于判断何时开始执行动作。整个框架可以分为预计算阶段和执行阶段。
关键创新:Premover的关键创新在于利用轻量级的预计算模块,在用户输入指令的过程中,提前预测并聚焦于与指令相关的图像区域。与直接在不完整指令上执行的naive premoving方法相比,Premover通过学习焦点图和就绪阈值,能够更准确地预测目标,避免过早执行导致性能下降。此外,Premover保持了VLA骨干网络的冻结,降低了训练成本和部署难度。
关键设计:Premover的关键设计包括:1) 使用两个小型投影头,将图像块和语言token映射到共享空间;2) 使用模拟器渲染的目标对象分割掩码监督焦点图的学习;3) 引入标量就绪阈值,判断何时开始执行动作;4) 联合训练焦点图和就绪阈值。损失函数包括焦点图的分割损失和动作执行的策略损失。就绪阈值通过强化学习进行训练,目标是最大化奖励。
🖼️ 关键图片
📊 实验亮点
Premover在LIBERO基准测试套件上取得了显著的性能提升。与完整提示基线相比,Premover在保持成功率(95.1% vs. 95.0%)的同时,将平均实际运行时间从34.0秒减少到29.4秒,降低了13.6%。相比之下,简单的预执行策略(naive premoving)性能下降到66.4%,表明Premover的预计算模块能够有效地利用用户输入指令的空闲时间,提升VLA策略的效率。
🎯 应用场景
Premover技术可应用于各种需要视觉-语言-动作交互的机器人应用场景,例如家庭服务机器人、工业机器人、自动驾驶等。通过减少交互延迟,提升用户体验,使机器人能够更快速、更准确地响应用户的指令。该技术还可扩展到其他模态,例如语音和触觉,实现更自然、更高效的人机交互。
📄 摘要(原文)
Vision-Language-Action (VLA) policies are typically evaluated as if the user had finished typing or speaking before the robot begins acting. In real deployment, however, users take several seconds to enter a request, leaving the policy idle for a substantial fraction of the interaction. We introduce Premover, a lightweight module that converts this idle window into useful precomputation. Premover keeps the VLA backbone frozen and attaches two small projection heads, one for image patches, one for language tokens, that map an intermediate layer of the backbone into a shared space. The resulting focus map is supervised by simulator-rendered target-object segmentation masks and applied as a per-patch reweighting of the next step's image tokens. A single scalar readiness threshold, trained jointly from streaming prefixes, decides when the policy should begin acting. On the LIBERO benchmark suite, Premover reduces mean wall-clock time from 34.0 to 29.4 seconds, a 13.6% reduction, while matching the full-prompt baseline's success rate (95.1% vs. 95.0%); naive premoving, by contrast, collapses to 66.4%.