From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

作者: Ju Dong, Liding Zhang, Lei Zhang, Yu Fu, Kaixin Bai, Zoltan-Csaba Marton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang

分类: cs.RO, cs.AI

发布日期: 2026-03-10

备注: https://sites.google.com/view/flow2one, 8 pages

💡 一句话要点

提出基于隐式最大似然估计的分布蒸馏方法，加速多模态轨迹策略，实现机器人实时操作。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 机器人操作 轨迹生成 知识蒸馏 条件流匹配 隐式最大似然估计 多模态融合 实时控制

📋 核心要点

扩散模型和流匹配方法在机器人操作中表现出色，但计算成本高，难以满足实时控制需求。
论文提出基于隐式最大似然估计的分布蒸馏方法，将复杂教师模型提炼为单步学生模型，加速推理。
实验表明，该方法能够实现高频控制，支持实时重规划，并在动态扰动下表现出更强的鲁棒性。

📝 摘要（中文）

基于扩散模型和流匹配的生成策略在机器人操作中表现出色，能够对多模态人类演示进行建模。然而，它们依赖于迭代的常微分方程(ODE)积分，导致延迟较高，限制了高频闭环控制。最近的单步加速方法缓解了这一问题，但通常表现出分布坍塌，产生平均轨迹，无法执行连贯的操作策略。我们提出了一个框架，通过隐式最大似然估计(IMLE)将条件流匹配(CFM)专家模型提炼成快速的单步学生模型。双向Chamfer距离提供了一个集合层面的目标，促进了模式覆盖和保真度，从而在单次前向传递中保留了教师模型的多模态动作分布。统一的感知编码器进一步集成了多视角RGB、深度、点云和本体感觉，形成几何感知的表示。由此产生的高频控制支持实时后退水平面重规划，并提高了在动态扰动下的鲁棒性。

🔬 方法详解

问题定义：现有基于扩散模型和流匹配的轨迹生成策略，虽然能较好地模拟多模态人类动作，但依赖于迭代ODE求解，计算量大，难以应用于需要实时响应的机器人控制任务。单步加速方法虽然降低了计算复杂度，但容易导致分布坍塌，生成的轨迹质量下降。

核心思路：论文的核心思路是通过知识蒸馏，将一个训练好的、基于条件流匹配(CFM)的复杂教师模型（专家模型）的知识转移到一个单步学生模型上。学生模型通过单次前向传播即可生成高质量的轨迹，从而实现实时控制。为了避免分布坍塌，论文采用隐式最大似然估计(IMLE)作为蒸馏目标，并使用双向Chamfer距离来衡量生成轨迹的质量。

技术框架：整体框架包含三个主要部分：1) 多模态感知编码器：将多视角RGB、深度、点云和本体感觉信息融合为几何感知的状态表示。2) 基于条件流匹配(CFM)的教师模型：负责生成高质量的多模态轨迹。3) 基于隐式最大似然估计(IMLE)的单步学生模型：通过蒸馏学习教师模型的知识，实现快速轨迹生成。训练过程中，教师模型固定，学生模型通过最小化IMLE损失进行优化。

关键创新：论文的关键创新在于使用隐式最大似然估计(IMLE)作为蒸馏目标，并结合双向Chamfer距离来衡量生成轨迹的质量。IMLE能够更好地保留教师模型的多模态分布，避免分布坍塌。双向Chamfer距离能够同时考虑模式覆盖和轨迹保真度，确保学生模型生成的轨迹既多样又准确。

关键设计：论文使用双向Chamfer距离作为IMLE损失函数的一部分，以促进模式覆盖和保真度。感知编码器采用统一的架构，能够处理多种模态的输入数据。学生模型采用单步网络结构，以实现快速推理。具体参数设置和网络结构细节未在摘要中详细说明，需要参考原文。

🖼️ 关键图片

📊 实验亮点

论文提出的方法通过蒸馏，将基于CFM的复杂模型转化为单步模型，实现了高频控制。实验结果表明，该方法在保持轨迹质量的同时，显著降低了计算延迟，提高了机器人在动态扰动下的鲁棒性。具体的性能数据和对比基线需要在原文中查找。

🎯 应用场景

该研究成果可应用于各种需要实时控制的机器人操作任务，例如：高速抓取、动态避障、人机协作等。通过提高控制频率和鲁棒性，可以显著提升机器人在复杂环境中的适应性和操作效率。未来，该方法有望应用于自动驾驶、医疗机器人等领域。

📄 摘要（原文）

Generative policies based on diffusion and flow matching achieve strong performance in robotic manipulation by modeling multi-modal human demonstrations. However, their reliance on iterative Ordinary Differential Equation (ODE) integration introduces substantial latency, limiting high-frequency closed-loop control. Recent single-step acceleration methods alleviate this overhead but often exhibit distributional collapse, producing averaged trajectories that fail to execute coherent manipulation strategies. We propose a framework that distills a Conditional Flow Matching (CFM) expert into a fast single-step student via Implicit Maximum Likelihood Estimation (IMLE). A bi-directional Chamfer distance provides a set-level objective that promotes both mode coverage and fidelity, enabling preservation of the teacher multi-modal action distribution in a single forward pass. A unified perception encoder further integrates multi-view RGB, depth, point clouds, and proprioception into a geometry-aware representation. The resulting high-frequency control supports real-time receding-horizon re-planning and improved robustness under dynamic disturbances.

From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理