FLUX: Accelerating Cross-Embodiment Generative Navigation Policies via Rectified Flow and Static-to-Dynamic Learning

📄 arXiv: 2603.12806v1 📥 PDF

作者: Zeying Gong, Yangyi Zhong, Yiyi Ding, Tianshuai Hu, Guoyang Zhao, Lingdong Kong, Rong Li, Jiadi You, Junwei Liang

分类: cs.RO

发布日期: 2026-03-13

备注: Project Page at this Website


💡 一句话要点

FLUX:通过修正流和静态到动态学习加速跨具身生成式导航策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 自主导航 生成式模型 修正流 强化学习 动态环境 课程学习 具身智能 sim-to-real

📋 核心要点

  1. 现有导航方法在静态和动态环境下的评估标准不统一,缺乏综合性基准。
  2. FLUX通过线性化概率流,使用直线轨迹代替迭代去噪,提升了导航策略的推理效率。
  3. FLUX采用静态到动态的课程学习,先学习几何先验,再在动态环境中强化学习,提升了导航的鲁棒性。

📝 摘要(中文)

自主导航需要从静态目标到达,到动态社交环境穿越等多种技能,但现有评估方法分散在不同的协议中。本文提出了DynBench,一个具有物理有效人群模拟的动态导航基准。结合现有的静态协议,DynBench支持对六个基本导航任务的全面评估。在此框架下,本文提出了FLUX,第一个基于流的统一导航策略。通过线性化概率流,FLUX用直线轨迹代替迭代去噪,使每步推理效率比之前的基于流的方法提高47%,比基于扩散的方法提高29%。FLUX遵循从静态到动态的课程学习,首先建立几何先验,然后在动态社交环境中通过强化学习进行优化。这种机制不仅加强了社交感知导航,还通过捕获随机动作分布的恢复行为来增强静态任务的鲁棒性。FLUX在所有任务中都实现了最先进的性能,并在轮式、四足和人形平台上展示了零样本的sim-to-real迁移,无需任何微调。

🔬 方法详解

问题定义:现有自主导航研究通常将静态环境下的目标到达和动态社交环境下的导航分开评估,缺乏一个统一的、综合性的评估基准。此外,现有的基于流或扩散模型的导航方法,推理过程需要迭代去噪,计算成本较高。

核心思路:FLUX的核心思路是利用修正流(Rectified Flow)将概率分布之间的转换路径线性化,从而避免迭代去噪过程,提高推理效率。同时,采用静态到动态的课程学习策略,先学习静态环境下的几何先验知识,再在动态环境中进行强化学习,提升策略的泛化能力和鲁棒性。

技术框架:FLUX的整体框架包含以下几个关键部分:1) DynBench动态导航基准,用于综合评估导航策略;2) 基于修正流的生成式导航策略,用于生成导航轨迹;3) 静态到动态的课程学习策略,用于训练导航策略。具体流程是,首先在静态环境中训练一个初始的导航策略,然后将该策略迁移到动态环境中,通过强化学习进行微调。

关键创新:FLUX的关键创新在于将修正流应用于导航策略的学习,通过线性化概率流,显著提高了推理效率。与传统的基于流或扩散模型的导航方法相比,FLUX避免了迭代去噪过程,从而降低了计算复杂度。此外,静态到动态的课程学习策略也提升了策略的泛化能力和鲁棒性。

关键设计:FLUX使用Transformer网络作为策略的骨干网络,输入包括当前状态、目标位置和历史轨迹等信息,输出为动作概率分布。损失函数包括修正流损失和强化学习奖励。静态到动态的课程学习策略通过调整动态环境中人群密度和行为的复杂程度,逐步提升策略的难度。

📊 实验亮点

FLUX在DynBench基准测试中取得了state-of-the-art的性能,在所有六个导航任务中均优于现有方法。与之前的基于流的方法相比,FLUX的每步推理效率提高了47%,与基于扩散的方法相比提高了29%。此外,FLUX还展示了零样本的sim-to-real迁移能力,无需任何微调即可在轮式、四足和人形机器人平台上成功部署。

🎯 应用场景

FLUX具有广泛的应用前景,例如:服务机器人可以在家庭、办公室等复杂环境中安全高效地导航;自动驾驶汽车可以在拥挤的城市道路上行驶;搜救机器人可以在灾难现场快速找到幸存者。该研究成果有助于提升机器人在各种复杂环境下的自主导航能力,具有重要的实际应用价值。

📄 摘要(原文)

Autonomous navigation requires a broad spectrum of skills, from static goal-reaching to dynamic social traversal, yet evaluation remains fragmented across disparate protocols. We introduce DynBench, a dynamic navigation benchmark featuring physically valid crowd simulation. Combined with existing static protocols, it supports comprehensive evaluation across six fundamental navigation tasks. Within this framework, we propose FLUX, the first flow-based unified navigation policy. By linearizing probability flow, FLUX replaces iterative denoising with straight-line trajectories, improving per-step inference efficiency by 47% over prior flow-based methods and 29% over diffusion-based ones. Following a static-to-dynamic curriculum, FLUX initially establishes geometric priors and is subsequently refined through reinforcement learning in dynamic social environments. This regime not only strengthens socially-aware navigation but also enhances static task robustness by capturing recovery behaviors through stochastic action distributions. FLUX achieves state-of-the-art performance across all tasks and demonstrates zero-shot sim-to-real transfer on wheeled, quadrupedal, and humanoid platforms without any fine-tuning.