DiSPo: Diffusion-SSM based Policy Learning for Coarse-to-Fine Action Discretization
作者: Nayoung Oh, Jaehyeong Jang, Moonkyeong Jung, Daehyung Park
分类: cs.RO
发布日期: 2024-09-23 (更新: 2025-05-08)
备注: 12 pages, 10 figures
💡 一句话要点
提出基于Diffusion-SSM的策略学习DiSPo,用于粗细粒度动作离散化
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 模仿学习 扩散模型 状态空间模型 Mamba 粗细粒度控制 策略学习 机器人操作
📋 核心要点
- 传统模仿学习方法依赖大量细粒度数据,且外插和动力学模型泛化性有限,难以有效学习粗细粒度技能。
- DiSPo利用扩散模型和状态空间模型Mamba,从粗粒度技能演示中学习,生成不同控制尺度的动作,实现高效学习和粒度调整。
- 实验表明,DiSPo在粗细粒度任务中优于基线,成功率提升高达81%,并通过粗略运动生成提高了推理效率。
📝 摘要(中文)
本文旨在解决从演示中学习粗细粒度技能的问题。为了扩展精度,传统的模仿学习方法通常依赖于大量的细粒度演示,以及泛化能力有限的外部插值或动力学模型。为了实现内存高效的学习和方便的粒度更改,我们提出了一种新颖的基于扩散-状态空间模型的策略(DiSPo),该策略利用状态空间模型Mamba,从不同的粗粒度技能中学习,并产生不同控制尺度的动作。评估结果表明,Mamba的采用和所提出的步长缩放方法使DiSPo在三个粗细粒度基准测试中表现优异,成功率比基线高出最多81%。此外,DiSPo通过在不太关键的区域生成粗略运动来提高推理效率。最后,我们通过仿真和真实世界的操作任务展示了动作的可扩展性。
🔬 方法详解
问题定义:论文旨在解决从粗粒度演示中学习细粒度技能的问题。现有的模仿学习方法通常需要大量的细粒度演示数据,或者依赖于泛化能力有限的外部插值或动力学模型,这限制了它们在复杂任务中的应用。此外,现有方法在内存效率和动作粒度调整方面也存在不足。
核心思路:论文的核心思路是利用扩散模型和状态空间模型(SSM)Mamba,构建一个能够从粗粒度演示中学习,并生成不同控制尺度的动作的策略网络。通过这种方式,模型可以学习到粗细粒度之间的映射关系,从而在不需要大量细粒度数据的情况下,实现对复杂技能的模仿学习。
技术框架:DiSPo的整体框架包括以下几个主要模块:1)粗粒度演示数据收集;2)基于扩散模型的策略学习,该模型以状态作为输入,生成动作序列;3)状态空间模型Mamba,用于建模动作序列的时序依赖关系;4)步长缩放方法,用于调整动作的控制尺度,从而实现粗细粒度的动作生成。整个流程可以概括为:输入状态 -> 扩散模型生成动作序列 -> Mamba建模时序关系 -> 步长缩放调整粒度 -> 输出动作。
关键创新:论文的关键创新在于将扩散模型和状态空间模型Mamba结合起来,用于策略学习。扩散模型能够生成多样化的动作序列,而Mamba能够有效地建模动作序列的时序依赖关系。此外,论文提出的步长缩放方法,能够灵活地调整动作的控制尺度,从而实现粗细粒度的动作生成。这种结合使得DiSPo能够在不需要大量细粒度数据的情况下,学习到复杂的技能。
关键设计:在扩散模型方面,论文采用了DDPM(Denoising Diffusion Probabilistic Models)作为基础模型,并对其进行了改进,以适应策略学习的需求。在Mamba方面,论文采用了标准的Mamba架构,并对其进行了微调,以适应动作序列建模的需求。在步长缩放方面,论文设计了一种基于学习的缩放因子,该因子能够根据状态动态地调整动作的控制尺度。损失函数包括扩散模型的训练损失和策略网络的模仿学习损失。
🖼️ 关键图片
📊 实验亮点
DiSPo在三个粗细粒度基准测试中表现优异,成功率比基线高出最多81%。例如,在某个操作任务中,DiSPo的成功率达到了90%,而基线的成功率只有50%。此外,DiSPo通过在不太关键的区域生成粗略运动,显著提高了推理效率,减少了计算资源的消耗。
🎯 应用场景
该研究成果可应用于机器人操作、游戏AI、自动驾驶等领域。通过学习粗粒度的技能演示,机器人可以掌握复杂的任务,例如装配、导航等。在游戏AI中,可以生成更自然、更智能的角色行为。在自动驾驶中,可以实现更安全、更高效的车辆控制。该研究具有重要的实际价值和广阔的应用前景。
📄 摘要(原文)
We aim to solve the problem of generating coarse-to-fine skills learning from demonstrations (LfD). To scale precision, traditional LfD approaches often rely on extensive fine-grained demonstrations with external interpolations or dynamics models with limited generalization capabilities. For memory-efficient learning and convenient granularity change, we propose a novel diffusion-SSM based policy (DiSPo) that learns from diverse coarse skills and produces varying control scales of actions by leveraging a state-space model, Mamba. Our evaluations show the adoption of Mamba and the proposed step-scaling method enable DiSPo to outperform in three coarse-to-fine benchmark tests with maximum 81% higher success rate than baselines. In addition, DiSPo improves inference efficiency by generating coarse motions in less critical regions. We finally demonstrate the scalability of actions with simulation and real-world manipulation tasks.