From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation
作者: Ju Dong, Liding Zhang, Lei Zhang, Yu Fu, Kaixin Bai, Zoltan-Csaba Marton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang
分类: cs.RO, cs.AI
发布日期: 2026-03-10
备注: https://sites.google.com/view/flow2one, 8 pages
💡 一句话要点
提出基于隐式最大似然估计的分布蒸馏方法,加速多模态轨迹策略,实现机器人实时操作。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 轨迹生成 知识蒸馏 条件流匹配 隐式最大似然估计 多模态融合 实时控制
📋 核心要点
- 扩散模型和流匹配方法在机器人操作中表现出色,但计算成本高,难以满足实时控制需求。
- 论文提出基于隐式最大似然估计的分布蒸馏方法,将复杂教师模型提炼为单步学生模型,加速推理。
- 实验表明,该方法能够实现高频控制,支持实时重规划,并在动态扰动下表现出更强的鲁棒性。
📝 摘要(中文)
基于扩散模型和流匹配的生成策略在机器人操作中表现出色,能够对多模态人类演示进行建模。然而,它们依赖于迭代的常微分方程(ODE)积分,导致延迟较高,限制了高频闭环控制。最近的单步加速方法缓解了这一问题,但通常表现出分布坍塌,产生平均轨迹,无法执行连贯的操作策略。我们提出了一个框架,通过隐式最大似然估计(IMLE)将条件流匹配(CFM)专家模型提炼成快速的单步学生模型。双向Chamfer距离提供了一个集合层面的目标,促进了模式覆盖和保真度,从而在单次前向传递中保留了教师模型的多模态动作分布。统一的感知编码器进一步集成了多视角RGB、深度、点云和本体感觉,形成几何感知的表示。由此产生的高频控制支持实时后退水平面重规划,并提高了在动态扰动下的鲁棒性。
🔬 方法详解
问题定义:现有基于扩散模型和流匹配的轨迹生成策略,虽然能较好地模拟多模态人类动作,但依赖于迭代ODE求解,计算量大,难以应用于需要实时响应的机器人控制任务。单步加速方法虽然降低了计算复杂度,但容易导致分布坍塌,生成的轨迹质量下降。
核心思路:论文的核心思路是通过知识蒸馏,将一个训练好的、基于条件流匹配(CFM)的复杂教师模型(专家模型)的知识转移到一个单步学生模型上。学生模型通过单次前向传播即可生成高质量的轨迹,从而实现实时控制。为了避免分布坍塌,论文采用隐式最大似然估计(IMLE)作为蒸馏目标,并使用双向Chamfer距离来衡量生成轨迹的质量。
技术框架:整体框架包含三个主要部分:1) 多模态感知编码器:将多视角RGB、深度、点云和本体感觉信息融合为几何感知的状态表示。2) 基于条件流匹配(CFM)的教师模型:负责生成高质量的多模态轨迹。3) 基于隐式最大似然估计(IMLE)的单步学生模型:通过蒸馏学习教师模型的知识,实现快速轨迹生成。训练过程中,教师模型固定,学生模型通过最小化IMLE损失进行优化。
关键创新:论文的关键创新在于使用隐式最大似然估计(IMLE)作为蒸馏目标,并结合双向Chamfer距离来衡量生成轨迹的质量。IMLE能够更好地保留教师模型的多模态分布,避免分布坍塌。双向Chamfer距离能够同时考虑模式覆盖和轨迹保真度,确保学生模型生成的轨迹既多样又准确。
关键设计:论文使用双向Chamfer距离作为IMLE损失函数的一部分,以促进模式覆盖和保真度。感知编码器采用统一的架构,能够处理多种模态的输入数据。学生模型采用单步网络结构,以实现快速推理。具体参数设置和网络结构细节未在摘要中详细说明,需要参考原文。
🖼️ 关键图片
📊 实验亮点
论文提出的方法通过蒸馏,将基于CFM的复杂模型转化为单步模型,实现了高频控制。实验结果表明,该方法在保持轨迹质量的同时,显著降低了计算延迟,提高了机器人在动态扰动下的鲁棒性。具体的性能数据和对比基线需要在原文中查找。
🎯 应用场景
该研究成果可应用于各种需要实时控制的机器人操作任务,例如:高速抓取、动态避障、人机协作等。通过提高控制频率和鲁棒性,可以显著提升机器人在复杂环境中的适应性和操作效率。未来,该方法有望应用于自动驾驶、医疗机器人等领域。
📄 摘要(原文)
Generative policies based on diffusion and flow matching achieve strong performance in robotic manipulation by modeling multi-modal human demonstrations. However, their reliance on iterative Ordinary Differential Equation (ODE) integration introduces substantial latency, limiting high-frequency closed-loop control. Recent single-step acceleration methods alleviate this overhead but often exhibit distributional collapse, producing averaged trajectories that fail to execute coherent manipulation strategies. We propose a framework that distills a Conditional Flow Matching (CFM) expert into a fast single-step student via Implicit Maximum Likelihood Estimation (IMLE). A bi-directional Chamfer distance provides a set-level objective that promotes both mode coverage and fidelity, enabling preservation of the teacher multi-modal action distribution in a single forward pass. A unified perception encoder further integrates multi-view RGB, depth, point clouds, and proprioception into a geometry-aware representation. The resulting high-frequency control supports real-time receding-horizon re-planning and improved robustness under dynamic disturbances.