FALCON: Actively Decoupled Visuomotor Policies for Loco-Manipulation with Foundation-Model-Based Coordination

📄 arXiv: 2512.04381v1 📥 PDF

作者: Chengyang He, Ge Sun, Yue Bai, Junkai Lu, Jiadong Zhao, Guillaume Sartoretti

分类: cs.RO

发布日期: 2025-12-04


💡 一句话要点

FALCON:基于基础模型协调的主动解耦式操作-移动机器人策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 操作-移动机器人 视觉运动策略 扩散模型 视觉-语言基础模型 解耦策略 协调控制 机器人学习 对比学习

📋 核心要点

  1. 现有操作-移动机器人方法难以有效融合异构的移动和操作观测,导致性能下降。
  2. FALCON通过解耦移动和操作策略,并利用视觉-语言基础模型进行协调,解决了异构观测融合问题。
  3. 实验表明,FALCON在操作-移动机器人任务中优于集中式和分散式基线,并具有更好的鲁棒性和泛化能力。

📝 摘要(中文)

本文提出了一种名为FALCON(FoundAtion-model-guided decoupled LoCO-maNipulation visuomotor policies)的框架,用于操作-移动机器人任务。该框架结合了模块化的扩散策略,并利用视觉-语言基础模型作为协调器。我们的方法将移动和操作显式地解耦为两个专门的视觉运动策略,允许每个子系统依赖于其自身的观测。这减轻了当单个策略被迫融合来自移动和操作的异构、可能不匹配的观测时产生的性能下降。我们的关键创新在于通过视觉-语言基础模型恢复这两个独立策略之间的协调,该模型将全局观测和语言指令编码为共享的潜在嵌入,从而调节扩散策略。在此基础上,我们引入了一个阶段-进度头,它使用任务阶段的文本描述来推断离散阶段和连续进度估计,而无需手动阶段标签。为了进一步构建潜在空间,我们结合了一个协调感知的对比损失,该损失显式地编码了手臂和底座动作之间的跨子系统兼容性。我们在两个具有挑战性的操作-移动机器人任务上评估了FALCON,这些任务需要导航、精确的末端执行器放置和紧密的底座-手臂协调。结果表明,它超越了集中式和分散式基线,同时表现出改进的鲁棒性和对分布外场景的泛化能力。

🔬 方法详解

问题定义:论文旨在解决操作-移动机器人任务中,由于移动和操作子系统观测的异构性,导致单一策略难以有效融合信息,从而影响整体性能的问题。现有方法要么采用集中式策略,直接融合所有观测,要么采用完全分散式策略,忽略子系统间的依赖关系,都存在局限性。

核心思路:论文的核心思路是将移动和操作策略解耦,分别训练独立的视觉运动策略,然后利用视觉-语言基础模型作为协调器,将全局观测和语言指令编码到共享的潜在空间中,从而恢复子系统之间的协调。这种解耦的方式允许每个子系统专注于自身任务,避免了异构信息直接融合带来的干扰。

技术框架:FALCON框架包含两个主要的模块:解耦的视觉运动策略(分别用于移动和操作)和一个视觉-语言基础模型协调器。首先,移动和操作子系统分别根据自身观测生成动作。然后,视觉-语言基础模型接收全局观测和语言指令,生成一个共享的潜在嵌入。最后,该嵌入被用于调节两个扩散策略,从而实现子系统间的协调。此外,还引入了一个阶段-进度头,用于预测任务的阶段和进度。

关键创新:论文的关键创新在于利用视觉-语言基础模型作为协调器,连接解耦的移动和操作策略。这种方法能够有效地利用全局信息和语言指令,实现子系统间的协调,同时避免了异构信息直接融合带来的问题。此外,提出的协调感知对比损失,显式地编码了手臂和底座动作之间的跨子系统兼容性,进一步提升了协调效果。

关键设计:论文中使用了扩散策略作为底层的视觉运动策略,并采用Transformer网络作为视觉-语言基础模型。阶段-进度头通过预测离散阶段和连续进度来指导策略的学习。协调感知对比损失通过对比正负样本对,学习具有协调性的潜在空间表示。具体的损失函数设计和网络结构参数在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FALCON在两个具有挑战性的操作-移动机器人任务上,超越了集中式和分散式基线。具体而言,FALCON在导航、精确末端执行器放置和底座-手臂协调方面表现出显著优势。此外,FALCON还表现出更好的鲁棒性和对分布外场景的泛化能力,证明了其在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于各种需要操作-移动机器人协同工作的场景,例如仓库自动化、家庭服务机器人、灾难救援等。通过解耦和协调移动与操作,机器人可以更高效、更安全地完成复杂任务,提高工作效率和适应性。未来,该技术有望推动机器人智能化水平的提升,使其更好地服务于人类社会。

📄 摘要(原文)

We present FoundAtion-model-guided decoupled LoCO-maNipulation visuomotor policies (FALCON), a framework for loco-manipulation that combines modular diffusion policies with a vision-language foundation model as the coordinator. Our approach explicitly decouples locomotion and manipulation into two specialized visuomotor policies, allowing each subsystem to rely on its own observations. This mitigates the performance degradation that arise when a single policy is forced to fuse heterogeneous, potentially mismatched observations from locomotion and manipulation. Our key innovation lies in restoring coordination between these two independent policies through a vision-language foundation model, which encodes global observations and language instructions into a shared latent embedding conditioning both diffusion policies. On top of this backbone, we introduce a phase-progress head that uses textual descriptions of task stages to infer discrete phase and continuous progress estimates without manual phase labels. To further structure the latent space, we incorporate a coordination-aware contrastive loss that explicitly encodes cross-subsystem compatibility between arm and base actions. We evaluate FALCON on two challenging loco-manipulation tasks requiring navigation, precise end-effector placement, and tight base-arm coordination. Results show that it surpasses centralized and decentralized baselines while exhibiting improved robustness and generalization to out-of-distribution scenarios.