Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

作者: Teqiang Zou, Hongliang Zeng, Yuxuan Nong, Yifan Li, Kehui Liu, Haotian Yang, Xinyang Ling, Xin Li, Lianyang Ma

分类: cs.RO, cs.AI

发布日期: 2025-12-23

💡 一句话要点

提出DuoCore-FS异步快速-慢速视觉-语言-动作框架，提升全身机器人操作的实时性和稳定性。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作 机器人操作 异步控制 快速-慢速框架 全身动作 深度学习 机器人

📋 核心要点

现有VLA系统受限于VLM推理速度，同步执行模式导致全身机器人操作实时性和稳定性不足。
DuoCore-FS框架采用异步快速-慢速双通道设计，利用潜在表示缓冲区连接VLM推理和动作生成。
实验表明，DuoCore-FS能以30Hz生成全身动作，速度提升三倍，并显著提高任务成功率和响应能力。

📝 摘要（中文）

大多数视觉-语言-动作（VLA）系统集成了视觉-语言模型（VLM）进行语义推理，以及生成连续动作信号的动作专家，但两者通常以单一的统一频率运行。因此，策略性能受到大型VLM低推理速度的限制。这种强制性的同步执行严重限制了全身机器人操作中的控制稳定性和实时性能，全身机器人操作涉及更多的关节、更大的运动空间和动态变化的视角。我们引入了一个真正的异步快速-慢速VLA框架（DuoCore-FS），将系统组织成一个用于高频动作生成的快速通道和一个用于丰富VLM推理的慢速通道。该系统的特点是两个关键特征。首先，一个潜在表示缓冲区连接了慢速和快速系统。它存储与场景-指令上下文对齐的指令语义和动作推理表示，为快速通道提供高级指导。其次，一个全身动作标记器提供了全身动作的紧凑、统一的表示。重要的是，VLM和动作专家仍然进行端到端联合训练，在保持统一策略学习的同时实现异步执行。DuoCore-FS支持一个30亿参数的VLM，同时实现30 Hz的全身动作块生成，大约是先前具有可比模型大小的VLA模型的三倍。真实的全身操作实验表明，与同步快速-慢速VLA基线相比，任务成功率有所提高，响应能力显著增强。DuoCore-FS的实现，包括训练、推理和部署，由Astribot作为Astribot机器人平台的一部分提供给商业用户。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）系统通常采用同步执行模式，即视觉-语言模型（VLM）和动作专家以相同的频率运行。由于大型VLM推理速度较慢，这限制了整个系统的实时性，尤其是在需要高频率控制的全身机器人操作中，同步执行模式会严重影响控制稳定性和响应速度。现有方法难以兼顾VLM的语义理解能力和机器人操作的实时性需求。

核心思路：DuoCore-FS的核心思路是将VLA系统解耦为快速和慢速两个通道，实现异步执行。慢速通道负责VLM的语义推理，生成高级指令和场景理解；快速通道负责高频率的动作生成。通过这种异步设计，系统可以充分利用VLM的语义信息，同时避免其低推理速度对实时性的影响。

技术框架：DuoCore-FS框架包含以下主要模块：1) 慢速通道：VLM进行视觉和语言信息的处理，提取语义特征。2) 快速通道：动作专家根据慢速通道提供的语义指导和当前环境状态生成动作。3) 潜在表示缓冲区：作为慢速和快速通道之间的桥梁，存储指令语义和动作推理表示，为快速通道提供高级指导。4) 全身动作标记器：将全身动作表示为紧凑的、统一的表示，方便动作的生成和控制。整个框架采用端到端联合训练，保证VLM和动作专家之间的协同工作。

关键创新：DuoCore-FS的关键创新在于异步快速-慢速双通道架构。与传统的同步VLA系统相比，DuoCore-FS能够充分利用VLM的语义信息，同时避免其低推理速度对实时性的影响。此外，潜在表示缓冲区的引入，使得慢速通道的语义信息能够有效地传递给快速通道，指导动作的生成。

关键设计：潜在表示缓冲区的具体实现方式（例如，采用何种数据结构存储语义信息，如何更新和访问缓冲区中的数据）以及全身动作标记器的设计（例如，采用何种编码方式表示全身动作，如何保证动作的连续性和平滑性）是关键的设计细节。论文中可能还涉及损失函数的设计，用于指导VLM和动作专家的联合训练，以及一些超参数的设置，例如快速通道和慢速通道的运行频率。

🖼️ 关键图片

📊 实验亮点

DuoCore-FS框架在全身机器人操作实验中表现出色，在支持30亿参数VLM的同时，实现了30Hz的全身动作块生成，速度是现有VLA模型的三倍。与同步Fast-Slow VLA基线相比，DuoCore-FS显著提高了任务成功率和响应能力，验证了异步执行策略的有效性。Astribot已将DuoCore-FS集成到其机器人平台中，表明该技术具有商业应用价值。

🎯 应用场景

DuoCore-FS框架可应用于各种需要高实时性和复杂语义理解的机器人操作任务，例如家庭服务机器人、工业自动化机器人和医疗机器人。该框架能够提升机器人在复杂环境中的适应性和操作效率，实现更安全、更可靠的人机协作。未来，该技术有望推动机器人智能化水平的提升，拓展机器人的应用领域。

📄 摘要（原文）

Most Vision-Language-Action (VLA) systems integrate a Vision-Language Model (VLM) for semantic reasoning with an action expert generating continuous action signals, yet both typically run at a single unified frequency. As a result, policy performance is constrained by the low inference speed of large VLMs. This mandatory synchronous execution severely limits control stability and real-time performance in whole-body robotic manipulation, which involves more joints, larger motion spaces, and dynamically changing views. We introduce a truly asynchronous Fast-Slow VLA framework (DuoCore-FS), organizing the system into a fast pathway for high-frequency action generation and a slow pathway for rich VLM reasoning. The system is characterized by two key features. First, a latent representation buffer bridges the slow and fast systems. It stores instruction semantics and action-reasoning representation aligned with the scene-instruction context, providing high-level guidance to the fast pathway. Second, a whole-body action tokenizer provides a compact, unified representation of whole-body actions. Importantly, the VLM and action expert are still jointly trained end-to-end, preserving unified policy learning while enabling asynchronous execution. DuoCore-FS supports a 3B-parameter VLM while achieving 30 Hz whole-body action-chunk generation, approximately three times as fast as prior VLA models with comparable model sizes. Real-world whole-body manipulation experiments demonstrate improved task success rates and significantly enhanced responsiveness compared to synchronous Fast-Slow VLA baselines. The implementation of DuoCore-FS, including training, inference, and deployment, is provided to commercial users by Astribot as part of the Astribot robotic platform.

Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理