KDPE: A Kernel Density Estimation Strategy for Diffusion Policy Trajectory Selection

📄 arXiv: 2508.10511v2 📥 PDF

作者: Andrea Rosasco, Federico Ceola, Giulia Pasquale, Lorenzo Natale

分类: cs.RO

发布日期: 2025-08-14 (更新: 2025-08-15)

备注: 9th Conference on Robot Learning (CoRL 2025), Seoul, Korea

期刊: 2025 Conference on Robot Learning

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出KDPE以解决扩散策略轨迹选择中的多模态问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 核密度估计 扩散策略 机器人轨迹生成 多模态学习 行为克隆

📋 核心要点

  1. 现有的扩散策略在执行过程中可能导致机器人超出训练数据分布,主要由于去噪过程的随机性和对异常值的学习。
  2. 本文提出KDPE,通过核密度估计过滤扩散策略生成的潜在有害轨迹,旨在提高轨迹质量并降低计算开销。
  3. 实验结果表明,KDPE在模拟单臂任务和真实机器人实验中均优于传统的扩散策略,展示了其有效性。

📝 摘要(中文)

学习能够捕捉训练数据中多模态的机器人策略一直是行为克隆中的一个长期挑战。最近的研究通过生成模型建模条件动作分布来解决这一问题。其中,扩散策略依赖于扩散模型将随机点去噪为机器人动作轨迹。尽管取得了最先进的性能,但其在策略执行中可能导致机器人超出数据分布的两个主要缺陷是:去噪过程的随机性可能严重影响生成动作轨迹的质量;作为一种监督学习方法,它可能会学习到训练数据集中的异常值。为了解决这些问题,本文提出了一种基于核密度估计的策略KDPE,能够过滤掉扩散策略输出的潜在有害轨迹,同时保持低测试时间计算开销。KDPE在模拟单臂任务和真实机器人实验中整体表现优于扩散策略。

🔬 方法详解

问题定义:本文旨在解决扩散策略在机器人动作轨迹生成中的不足,特别是去噪过程的随机性和对异常值的学习问题,这些问题可能导致生成的轨迹质量下降。

核心思路:KDPE通过引入核密度估计,过滤掉扩散策略生成的有害轨迹,保持有效的轨迹生成,同时降低测试时的计算开销。该方法利用流形感知核来建模动作的概率密度函数,从而提高轨迹的可靠性。

技术框架:KDPE的整体架构包括数据预处理、核密度估计模块和轨迹选择模块。首先对生成的轨迹进行预处理,然后通过流形感知核进行概率密度建模,最后根据密度值选择合适的轨迹。

关键创新:KDPE的主要创新在于引入流形感知核来建模动作的概率密度函数,这一设计使得轨迹选择更加精准,显著提高了生成轨迹的质量。与现有方法相比,KDPE在处理多模态数据时表现出更好的鲁棒性。

关键设计:在核密度估计中,采用了针对末端执行器的笛卡尔位置、方向和夹持状态的流形感知核,确保了模型能够有效捕捉到动作的多样性和复杂性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,KDPE在模拟单臂任务中相较于扩散策略提高了性能,具体表现为成功率和轨迹质量的显著提升。在真实机器人实验中,KDPE同样展现了更高的稳定性和可靠性,验证了其在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人抓取、自动化装配和人机协作等场景。通过提高机器人在复杂环境中的决策能力,KDPE能够显著提升机器人在实际任务中的表现,推动智能机器人技术的进一步发展。

📄 摘要(原文)

Learning robot policies that capture multimodality in the training data has been a long-standing open challenge for behavior cloning. Recent approaches tackle the problem by modeling the conditional action distribution with generative models. One of these approaches is Diffusion Policy, which relies on a diffusion model to denoise random points into robot action trajectories. While achieving state-of-the-art performance, it has two main drawbacks that may lead the robot out of the data distribution during policy execution. First, the stochasticity of the denoising process can highly impact on the quality of generated trajectory of actions. Second, being a supervised learning approach, it can learn data outliers from the dataset used for training. Recent work focuses on mitigating these limitations by combining Diffusion Policy either with large-scale training or with classical behavior cloning algorithms. Instead, we propose KDPE, a Kernel Density Estimation-based strategy that filters out potentially harmful trajectories output of Diffusion Policy while keeping a low test-time computational overhead. For Kernel Density Estimation, we propose a manifold-aware kernel to model a probability density function for actions composed of end-effector Cartesian position, orientation, and gripper state. KDPE overall achieves better performance than Diffusion Policy on simulated single-arm tasks and real robot experiments. Additional material and code are available on our project page at https://hsp-iit.github.io/KDPE/.