CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies
作者: Fan Du, Feng Yan, Jianxiong Wu, Xinrun Xu, Weiye Zhang, Weinong Wang, Yu Guo, Bin Qian, Zhihai He
分类: cs.CV, cs.AI
发布日期: 2026-04-27
🔗 代码/项目: GITHUB
💡 一句话要点
提出CF-VLA,通过粗到精的两阶段动作生成方法提升视觉-语言-动作策略的效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作策略 动作生成 粗到精方法 机器人学习 实时控制
📋 核心要点
- 现有基于流的VLA策略需要多步推理,效率低,难以满足实时性要求。
- CF-VLA采用粗到精的两阶段方法,先生成动作感知的起始点,再进行单步局部优化。
- 实验表明,CF-VLA在低NFE下性能优异,降低了动作采样延迟,并提升了真实机器人成功率。
📝 摘要(中文)
基于流的视觉-语言-动作(VLA)策略在动作生成方面具有很强的表达能力,但存在一个根本的低效问题:需要多步推理才能从无信息的 Gaussian 噪声中恢复动作结构,导致在实时约束下效率-质量的权衡不佳。为了解决这个问题,我们重新思考了生成动作建模中起始点的作用。我们没有缩短采样轨迹,而是提出了 CF-VLA,一种粗到精的两阶段公式,将动作生成重构为粗略初始化步骤(构建动作感知的起始点),然后是单步局部细化(校正残余误差)。具体而言,粗略阶段学习终点速度的条件后验,将 Gaussian 噪声转换为结构化初始化,而精细阶段从该初始化执行固定时间的细化。为了稳定训练,我们引入了一种逐步策略,首先学习受控的粗略预测器,然后执行联合优化。在 CALVIN 和 LIBERO 上的实验表明,我们的方法在低 NFE(函数评估次数)状态下建立了强大的效率-性能边界:它始终优于现有的 NFE=2 方法,在多个指标上匹配或超过了 NFE=10 的 π_{0.5} 基线,将动作采样延迟降低了 75.4%,并实现了 83.0% 的最佳平均真实机器人成功率,优于 MIP 19.5 个百分点,优于 π_{0.5} 4.0 个百分点。这些结果表明,结构化的粗到精生成能够实现强大的性能和高效的推理。我们的代码可在 https://github.com/EmbodiedAI-RoboTron/CF-VLA 获得。
🔬 方法详解
问题定义:论文旨在解决基于流的视觉-语言-动作(VLA)策略在动作生成过程中效率低下的问题。现有方法需要从高斯噪声中进行多步采样才能生成动作,计算成本高,难以满足实时性要求,尤其是在低函数评估次数(NFE)的情况下,效率和性能之间存在难以调和的矛盾。
核心思路:论文的核心思路是将动作生成过程分解为粗略初始化和精细调整两个阶段。粗略阶段负责生成一个具有动作信息的起始点,避免从完全随机的噪声开始采样;精细阶段则在此基础上进行单步优化,修正残余误差。这种粗到精的策略旨在提高采样效率,在保证性能的同时降低计算复杂度。
技术框架:CF-VLA包含两个主要阶段:粗略阶段和精细阶段。粗略阶段学习一个条件后验分布,将高斯噪声转换为结构化的动作初始化,即预测终点速度。精细阶段则从粗略阶段生成的初始化状态出发,进行固定时间的优化,得到最终的动作序列。为了稳定训练,论文采用了一种逐步训练策略,首先训练粗略预测器,然后进行联合优化。
关键创新:CF-VLA的关键创新在于提出了粗到精的两阶段动作生成框架,将动作生成过程分解为初始化和优化两个步骤。与现有方法相比,CF-VLA避免了从完全随机的噪声开始进行多步采样,而是通过粗略阶段生成一个具有动作信息的起始点,从而显著提高了采样效率。
关键设计:论文的关键设计包括:1) 粗略阶段的条件后验分布学习,用于将高斯噪声转换为结构化的动作初始化;2) 精细阶段的固定时间优化,用于修正残余误差;3) 逐步训练策略,用于稳定训练过程。具体而言,粗略阶段可能使用条件变分自编码器(CVAE)或生成对抗网络(GAN)等技术来学习条件后验分布。损失函数可能包括重构损失、KL散度损失等。精细阶段可能使用基于梯度的方法进行优化。
🖼️ 关键图片
📊 实验亮点
CF-VLA在CALVIN和LIBERO数据集上取得了显著的性能提升。在低NFE情况下,CF-VLA始终优于现有的NFE=2方法,并在多个指标上匹配或超过了NFE=10的π_{0.5}基线。此外,CF-VLA将动作采样延迟降低了75.4%,并实现了83.0%的最佳平均真实机器人成功率,优于MIP 19.5个百分点,优于π_{0.5} 4.0个百分点。
🎯 应用场景
CF-VLA适用于需要实时动作生成的机器人应用,例如家庭服务机器人、自动驾驶、游戏AI等。该方法可以提高机器人在复杂环境中的决策效率和响应速度,使其能够更好地与人类交互并完成各种任务。未来,该方法可以进一步扩展到更复杂的动作生成场景,例如多智能体协作、人机协作等。
📄 摘要(原文)
Flow-based vision-language-action (VLA) policies offer strong expressivity for action generation, but suffer from a fundamental inefficiency: multi-step inference is required to recover action structure from uninformative Gaussian noise, leading to a poor efficiency-quality trade-off under real-time constraints. We address this issue by rethinking the role of the starting point in generative action modeling. Instead of shortening the sampling trajectory, we propose CF-VLA, a coarse-to-fine two-stage formulation that restructures action generation into a coarse initialization step that constructs an action-aware starting point, followed by a single-step local refinement that corrects residual errors. Concretely, the coarse stage learns a conditional posterior over endpoint velocity to transform Gaussian noise into a structured initialization, while the fine stage performs a fixed-time refinement from this initialization. To stabilize training, we introduce a stepwise strategy that first learns a controlled coarse predictor and then performs joint optimization. Experiments on CALVIN and LIBERO show that our method establishes a strong efficiency-performance frontier under low-NFE (Number of Function Evaluations) regimes: it consistently outperforms existing NFE=2 methods, matches or surpasses the NFE=10 $π_{0.5}$ baseline on several metrics, reduces action sampling latency by 75.4\%, and achieves the best average real-robot success rate of 83.0\%, outperforming MIP by 19.5 points and $π_{0.5}$ by 4.0 points. These results suggest that structured, coarse-to-fine generation enables both strong performance and efficient inference. Our code is available at https://github.com/EmbodiedAI-RoboTron/CF-VLA.