Joint Flow Trajectory Optimization For Feasible Robot Motion Generation from Video Demonstrations

📄 arXiv: 2509.20703v1 📥 PDF

作者: Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-09-25


💡 一句话要点

提出Joint Flow Trajectory Optimization框架,解决视频演示学习中的机器人运动生成问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 视频演示学习 轨迹优化 流匹配 抓取姿态生成

📋 核心要点

  1. 现有方法难以直接从人类视频演示中生成可行的机器人运动,主要挑战在于具身差异和关节可行性约束。
  2. JFTO框架将演示视为以物体为中心的指导,通过联合优化抓取姿态、物体轨迹和碰撞避免,实现机器人运动生成。
  3. 通过将流匹配扩展到SE(3),JFTO能够对物体轨迹进行概率建模,捕捉演示的多模态特性,避免模式崩溃。

📝 摘要(中文)

本文提出了一种名为Joint Flow Trajectory Optimization (JFTO) 的框架,用于在基于视频演示学习 (LfD) 范式下生成抓取姿态和模仿物体轨迹,从而解决机器人操作中的具身差异和关节可行性约束问题。该方法不直接模仿人类的手部动作,而是将演示视为以物体为中心的指导,平衡三个目标:(i) 选择一个可行的抓取姿态,(ii) 生成与演示动作一致的物体轨迹,以及 (iii) 确保在机器人运动学范围内无碰撞执行。为了捕捉演示的多模态特性,我们将流匹配扩展到 $\SE(3)$,用于物体轨迹的概率建模,从而实现避免模式崩溃的密度感知模仿。最终的优化将抓取相似性、轨迹似然性和碰撞惩罚整合到一个统一的可微目标中。我们在模拟和真实世界的实验中验证了该方法在各种真实操作任务中的有效性。

🔬 方法详解

问题定义:论文旨在解决从人类视频演示中学习机器人运动轨迹的问题。现有方法通常直接模仿人类手部动作,忽略了机器人和人类在具身性上的差异,以及机器人关节运动的约束,导致生成的轨迹在机器人上不可行,或者容易发生碰撞。

核心思路:论文的核心思路是将人类演示视为物体运动的指导,而不是直接模仿人类的手部动作。通过优化机器人的抓取姿态和物体轨迹,使得机器人能够以一种可行且安全的方式完成任务。这种以物体为中心的视角能够更好地适应机器人和人类之间的差异。

技术框架:JFTO框架包含以下几个主要模块:1) 抓取姿态生成:根据视频演示,选择一个可行的抓取姿态。2) 物体轨迹生成:利用扩展的流匹配方法,对物体轨迹进行概率建模,生成与演示动作一致的轨迹。3) 碰撞检测与避免:在机器人运动学范围内,检测潜在的碰撞,并对轨迹进行调整,以避免碰撞。4) 联合优化:将抓取相似性、轨迹似然性和碰撞惩罚整合到一个统一的可微目标中,进行联合优化。

关键创新:该论文的关键创新在于:1) 将流匹配扩展到$\SE(3)$,用于物体轨迹的概率建模,能够捕捉演示的多模态特性,避免模式崩溃。2) 提出了一个统一的可微优化框架,将抓取姿态生成、物体轨迹生成和碰撞避免整合在一起,实现端到端的优化。3) 以物体为中心的视角,更好地适应了机器人和人类之间的具身差异。

关键设计:在抓取姿态生成方面,使用了抓取相似性度量来评估不同抓取姿态的质量。在物体轨迹生成方面,使用了基于$\SE(3)$的流匹配方法,通过最小化预测轨迹和真实轨迹之间的距离来学习轨迹分布。在碰撞避免方面,使用了碰撞惩罚函数来约束轨迹,避免碰撞的发生。整个优化过程使用梯度下降算法进行求解。

📊 实验亮点

论文在模拟和真实世界的实验中验证了JFTO框架的有效性。实验结果表明,该方法能够生成可行的机器人运动轨迹,成功完成各种操作任务。与直接模仿人类手部动作的方法相比,JFTO框架能够更好地适应机器人和人类之间的差异,提高任务成功率。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如装配、抓取、放置等。通过从人类视频演示中学习,机器人可以快速适应新的任务,无需人工示教或编程。该技术在自动化生产线、家庭服务机器人等领域具有广阔的应用前景,能够提高生产效率和服务质量。

📄 摘要(原文)

Learning from human video demonstrations offers a scalable alternative to teleoperation or kinesthetic teaching, but poses challenges for robot manipulators due to embodiment differences and joint feasibility constraints. We address this problem by proposing the Joint Flow Trajectory Optimization (JFTO) framework for grasp pose generation and object trajectory imitation under the video-based Learning-from-Demonstration (LfD) paradigm. Rather than directly imitating human hand motions, our method treats demonstrations as object-centric guides, balancing three objectives: (i) selecting a feasible grasp pose, (ii) generating object trajectories consistent with demonstrated motions, and (iii) ensuring collision-free execution within robot kinematics. To capture the multimodal nature of demonstrations, we extend flow matching to $\SE(3)$ for probabilistic modeling of object trajectories, enabling density-aware imitation that avoids mode collapse. The resulting optimization integrates grasp similarity, trajectory likelihood, and collision penalties into a unified differentiable objective. We validate our approach in both simulation and real-world experiments across diverse real-world manipulation tasks.