ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models
作者: Zhou Fang, Jiaqi Wang, Yi Zhou, Qiongfeng Shi
分类: cs.RO
发布日期: 2026-03-18
💡 一句话要点
ProbeFlow:面向VLA模型的免训练自适应Flow Matching加速框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人控制 视觉-语言-动作模型 Flow Matching 自适应推理 低延迟控制
📋 核心要点
- Flow Matching虽然提升了VLA模型在机器人操作中的性能,但其迭代ODE求解导致推理延迟,限制了实时控制。
- ProbeFlow通过评估轨迹几何复杂度,动态调整积分步数,减少不必要的网络评估,实现免训练的自适应推理加速。
- 实验表明,ProbeFlow在MetaWorld上加速动作解码14.8倍,降低端到端延迟2.8倍,且不影响成功率,并在LIBERO和真实环境中验证了有效性。
📝 摘要(中文)
本文提出ProbeFlow,一个免训练的自适应推理框架,专为连续机器人控制设计。现有的视觉-语言-动作(VLA)模型采用Flow Matching(FM)动作头在复杂机器人操作中表现出色,但FM所需的多步迭代ODE求解引入了推理延迟,阻碍了快速响应的物理控制。ProbeFlow通过评估初始速度向量和前瞻速度向量之间的余弦相似度来衡量几何轨迹的复杂性,从而动态地调度积分步数,减少冗余的网络评估。在MetaWorld基准测试中,ProbeFlow将动作解码加速了14.8倍(平均步数从N=50减少到2.6),并将端到端系统延迟降低了2.8倍,同时不影响操作成功率。在长时程LIBERO基准测试中,ProbeFlow自动分配更密集的调度来导航语义瓶颈,有效解决了flow求解器的延迟问题。真实物理部署验证了ProbeFlow成功缓解了动作解码延迟,同时确保了执行稳定性,为低延迟连续生成策略提供了一个非常实用的解决方案。
🔬 方法详解
问题定义:现有VLA模型使用Flow Matching进行动作预测时,需要进行多步迭代的ODE求解,这导致了较高的推理延迟,成为了实时机器人控制的瓶颈。虽然现有工作致力于优化VLM骨干网络,但动作头的延迟问题仍然没有得到有效解决。
核心思路:ProbeFlow的核心思路是根据轨迹的几何复杂度自适应地调整Flow Matching的积分步数。对于简单的轨迹,减少积分步数以降低延迟;对于复杂的轨迹,增加积分步数以保证精度。这种自适应调整可以在不牺牲性能的前提下显著降低推理时间。
技术框架:ProbeFlow框架主要包含以下几个步骤:1) 使用VLM提取视觉和语言特征;2) 使用Flow Matching动作头进行动作预测,但不是固定步数,而是动态调整;3) 通过计算初始速度向量和前瞻速度向量的余弦相似度来评估轨迹的几何复杂度;4) 根据几何复杂度动态地调整Flow Matching的积分步数。
关键创新:ProbeFlow的关键创新在于提出了一个免训练的自适应积分步数调度策略。与需要训练的自适应方法不同,ProbeFlow不需要额外的训练数据或计算资源,可以直接应用于现有的Flow Matching模型。此外,ProbeFlow使用几何复杂度作为调整积分步数的依据,能够有效地识别需要更多计算资源的复杂轨迹。
关键设计:ProbeFlow的关键设计在于余弦相似度的计算和积分步数的调度策略。余弦相似度用于衡量轨迹的几何复杂度,其值越接近1,表示轨迹越简单,可以减少积分步数;反之,则需要增加积分步数。积分步数的调度策略可以根据具体的应用场景进行调整,例如,可以设置一个阈值,当余弦相似度低于该阈值时,增加积分步数。
🖼️ 关键图片
📊 实验亮点
ProbeFlow在MetaWorld基准测试中,将动作解码加速了14.8倍(平均步数从N=50减少到2.6),并将端到端系统延迟降低了2.8倍,同时保持了与原始Flow Matching相当的操作成功率。在长时程LIBERO基准测试中,ProbeFlow也表现出良好的性能。真实物理部署验证了ProbeFlow能够有效降低动作解码延迟,并确保执行的稳定性。
🎯 应用场景
ProbeFlow可广泛应用于需要低延迟连续控制的机器人任务中,例如高速抓取、动态避障、人机协作等。该方法能够显著降低动作解码延迟,提高机器人的响应速度和控制精度,从而提升机器人在复杂环境中的适应性和鲁棒性。未来,ProbeFlow有望推动机器人技术在工业自动化、医疗健康、智能家居等领域的广泛应用。
📄 摘要(原文)
Recent Vision-Language-Action (VLA) models equipped with Flow Matching (FM) action heads achieve state-of-the-art performance in complex robot manipulation. However, the multi-step iterative ODE solving required by FM introduces inference latency that precludes responsive physical control. While current acceleration efforts optimize the Vision-Language Model (VLM) backbone, the action head bottleneck remains overlooked. To address this, we propose ProbeFlow, a training-free adaptive inference framework tai- lored for continuous robotic control. By evaluating geometric trajectory complexity via the cosine similarity between initial and lookahead velocity vectors, ProbeFlow dynamically sched- ules integration steps to prune redundant network evaluations. On the MetaWorld benchmark, it accelerates action decoding by 14.8x (reducing average steps from N = 50 to 2.6) and cuts end-to-end system latency by 2.8x without compromising the manipulation success rate. On the long-horizon LIBERO benchmark, the probe automatically allocates a denser schedule to navigate semantic bottlenecks, effectively resolving the flow solver delay. Real-world physical deployments confirm that ProbeFlow successfully mitigates action decoding latency while ensuring execution stability, offering a highly practical solution for low-latency continuous generative policies.