VLM-TDP: VLM-guided Trajectory-conditioned Diffusion Policy for Robust Long-Horizon Manipulation

📄 arXiv: 2507.04524v1 📥 PDF

作者: Kefeng Huang, Tingguang Li, Yuzhen Liu, Zhe Zhang, Jiankun Wang, Lei Han

分类: cs.RO

发布日期: 2025-07-06


💡 一句话要点

提出VLM引导的轨迹条件扩散策略,解决长时程操作任务中的鲁棒性问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 扩散策略 视觉语言模型 机器人操作 长时程任务 轨迹条件 鲁棒性 体素轨迹

📋 核心要点

  1. 现有扩散策略在长时程操作任务中表现不佳,且易受图像噪声影响,鲁棒性不足。
  2. 利用视觉语言模型分解任务,生成体素轨迹作为条件,引导扩散策略学习。
  3. 实验表明,该方法在仿真和真实环境中均显著提升了长时程任务的成功率和鲁棒性。

📝 摘要(中文)

扩散策略在机器人操作领域展现出潜力,但其有效性主要局限于短时程任务,且在图像噪声存在时性能显著下降。为了解决这些限制,我们提出了一种VLM引导的轨迹条件扩散策略(VLM-TDP),用于鲁棒的长时程操作。该方法利用先进的视觉语言模型(VLM)将长时程任务分解为简洁、可管理的子任务,并创新性地为每个子任务生成基于体素的轨迹。生成的轨迹作为关键的条件因素,有效地引导扩散策略,从而显著提高其性能。轨迹条件扩散策略(TDP)在从演示数据中提取的轨迹上进行训练,并使用VLM生成的轨迹进行验证。仿真实验结果表明,我们的方法显著优于经典的扩散策略,在成功率方面平均提高了44%,在长时程任务中提高了100%以上,在噪声图像或改变的环境等具有挑战性的条件下,性能下降减少了20%。真实世界的实验进一步加强了这些发现,在长时程任务中,性能差距变得更加明显。

🔬 方法详解

问题定义:现有扩散策略在机器人操作任务中,尤其是在长时程任务中,面临着效率和鲁棒性的挑战。当输入图像存在噪声或环境发生变化时,性能会显著下降。现有的方法难以有效地处理长时程任务中的复杂性和不确定性。

核心思路:论文的核心思路是利用视觉语言模型(VLM)来指导扩散策略,将长时程任务分解为一系列更小、更易于管理的子任务,并为每个子任务生成相应的轨迹。这些轨迹作为条件信息,引导扩散策略的学习和执行,从而提高其在长时程任务中的性能和鲁棒性。

技术框架:VLM-TDP的整体框架包含以下几个主要模块:1) 任务分解模块:利用VLM将长时程任务分解为一系列子任务。2) 轨迹生成模块:为每个子任务生成基于体素的轨迹。3) 轨迹条件扩散策略(TDP):基于生成的轨迹,训练扩散策略,使其能够根据轨迹信息生成相应的动作。4) 执行模块:将扩散策略生成的动作应用于机器人,完成任务。

关键创新:该方法最重要的创新点在于将视觉语言模型与轨迹条件扩散策略相结合。VLM负责任务分解和轨迹生成,为扩散策略提供指导信息,从而提高了扩散策略在长时程任务中的性能和鲁棒性。与传统的扩散策略相比,VLM-TDP能够更好地处理长时程任务中的复杂性和不确定性。

关键设计:轨迹生成模块使用体素表示轨迹,这种表示方式能够有效地捕捉轨迹的空间信息。轨迹条件扩散策略使用Transformer网络来处理轨迹信息,并将其融入到扩散过程中。损失函数包括轨迹预测损失和动作预测损失,用于优化扩散策略的性能。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真实验结果表明,VLM-TDP方法在成功率方面平均提高了44%,在长时程任务中提高了100%以上,在噪声图像或改变的环境等具有挑战性的条件下,性能下降减少了20%。真实世界的实验也验证了该方法的有效性,尤其是在长时程任务中,性能提升更加显著。

🎯 应用场景

该研究成果可应用于各种需要长时程操作的机器人任务,例如:复杂装配、物体整理、家庭服务等。通过提高机器人的操作能力和鲁棒性,可以使其更好地适应真实世界的复杂环境,从而实现更广泛的应用。

📄 摘要(原文)

Diffusion policy has demonstrated promising performance in the field of robotic manipulation. However, its effectiveness has been primarily limited in short-horizon tasks, and its performance significantly degrades in the presence of image noise. To address these limitations, we propose a VLM-guided trajectory-conditioned diffusion policy (VLM-TDP) for robust and long-horizon manipulation. Specifically, the proposed method leverages state-of-the-art vision-language models (VLMs) to decompose long-horizon tasks into concise, manageable sub-tasks, while also innovatively generating voxel-based trajectories for each sub-task. The generated trajectories serve as a crucial conditioning factor, effectively steering the diffusion policy and substantially enhancing its performance. The proposed Trajectory-conditioned Diffusion Policy (TDP) is trained on trajectories derived from demonstration data and validated using the trajectories generated by the VLM. Simulation experimental results indicate that our method significantly outperforms classical diffusion policies, achieving an average 44% increase in success rate, over 100% improvement in long-horizon tasks, and a 20% reduction in performance degradation in challenging conditions, such as noisy images or altered environments. These findings are further reinforced by our real-world experiments, where the performance gap becomes even more pronounced in long-horizon tasks. Videos are available on https://youtu.be/g0T6h32OSC8