SDP: Spiking Diffusion Policy for Robotic Manipulation with Learnable Channel-Wise Membrane Thresholds
作者: Zhixing Hou, Maoxu Gao, Hang Yu, Mengyu Yang, Chio-In Ieong
分类: cs.RO, cs.AI
发布日期: 2024-09-17
💡 一句话要点
提出基于脉冲神经网络和可学习阈值的Spiking Diffusion Policy,用于提升机器人操作效率。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 脉冲神经网络 扩散策略 机器人操作 低功耗计算 可学习阈值
📋 核心要点
- 现有机器人操作策略在计算效率和能源消耗方面存在挑战,尤其是在资源受限的场景下。
- 论文提出Spiking Diffusion Policy (SDP),结合脉冲神经网络和可学习阈值,旨在提升计算效率和性能。
- 实验表明,SDP在多个机器人操作任务上取得了与ANN相当的性能,并显著降低了动态能量消耗。
📝 摘要(中文)
本文提出了一种用于机器人操作的Spiking Diffusion Policy (SDP)学习方法,该方法将脉冲神经元和可学习的通道膜阈值(LCMT)集成到扩散策略模型中,从而提高计算效率并在评估的任务中实现高性能。具体来说,所提出的SDP模型采用U-Net架构作为脉冲神经网络(SNN)中扩散学习的骨干网络。它策略性地在脉冲卷积操作和Leaky Integrate-and-Fire (LIF)节点之间放置残差连接,从而防止对脉冲状态的干扰。此外,我们引入了一个时间编码块和一个时间解码块,以将时间步长为$T_S$的静态和动态数据相互转换,从而能够在SNN中以脉冲格式传输数据。此外,我们提出了LCMT来实现膜电位阈值的自适应获取,从而匹配跨通道的不同膜电位和放电率的条件,并避免了手动设置和调整超参数的繁琐过程。在SNN时间步长$T_S=4$的七个不同任务上评估SDP模型,我们获得了与ANN对应模型相当的结果,并且比基线SNN方法具有更快的收敛速度。这种改进伴随着在45nm硬件上估计的动态能量消耗减少了94.3%。
🔬 方法详解
问题定义:论文旨在解决机器人操作任务中,传统人工神经网络(ANN)计算量大、能耗高的问题。现有的ANN方法在资源受限的机器人平台上部署时面临挑战,而现有的脉冲神经网络(SNN)方法在复杂任务中性能可能不如ANN,且需要手动调整超参数。
核心思路:论文的核心思路是将扩散策略学习与SNN相结合,利用SNN的事件驱动特性降低计算复杂度,并通过可学习的通道膜阈值(LCMT)自适应地调整神经元的激活行为,从而提高SNN的性能和适应性。通过这种方式,在保证性能的同时,降低能耗。
技术框架:SDP模型基于U-Net架构,作为SNN中扩散学习的骨干网络。模型包含以下主要模块:1) 时间编码块:将静态和动态数据转换为脉冲序列。2) 脉冲U-Net:进行扩散学习,包含脉冲卷积层、LIF神经元和残差连接。3) 时间解码块:将脉冲序列解码为连续动作。4) LCMT模块:自适应地学习每个通道的膜电位阈值。
关键创新:论文的关键创新在于:1) 将扩散策略学习与SNN相结合,利用SNN的低功耗特性。2) 引入LCMT,实现膜电位阈值的自适应学习,避免了手动调参的困难。3) 在脉冲卷积和LIF神经元之间添加残差连接,防止脉冲状态的退化。
关键设计:SDP模型使用U-Net作为骨干网络,并将其中的卷积层替换为脉冲卷积层。LIF神经元采用标准的积分-发放模型。LCMT模块通过可学习的参数来调整每个通道的膜电位阈值。损失函数包括扩散模型的损失和可选的辅助损失。时间步长$T_S$是一个重要的超参数,影响SNN的精度和计算量。实验中,$T_S$设置为4。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在七个不同的机器人操作任务中,SDP模型在SNN时间步长$T_S=4$时,取得了与ANN模型相当的性能,并且比基线SNN方法具有更快的收敛速度。更重要的是,SDP模型在45nm硬件上估计的动态能量消耗降低了94.3%。这表明SDP在降低能耗方面具有显著优势。
🎯 应用场景
该研究成果可应用于资源受限的机器人平台,例如无人机、移动机器人和可穿戴设备。通过降低计算复杂度和能耗,SDP能够使这些平台在复杂环境中执行更长时间的任务,并提高其自主性和智能化水平。此外,该方法还可以推广到其他需要低功耗计算的领域,例如边缘计算和物联网。
📄 摘要(原文)
This paper introduces a Spiking Diffusion Policy (SDP) learning method for robotic manipulation by integrating Spiking Neurons and Learnable Channel-wise Membrane Thresholds (LCMT) into the diffusion policy model, thereby enhancing computational efficiency and achieving high performance in evaluated tasks. Specifically, the proposed SDP model employs the U-Net architecture as the backbone for diffusion learning within the Spiking Neural Network (SNN). It strategically places residual connections between the spike convolution operations and the Leaky Integrate-and-Fire (LIF) nodes, thereby preventing disruptions to the spiking states. Additionally, we introduce a temporal encoding block and a temporal decoding block to transform static and dynamic data with timestep $T_S$ into each other, enabling the transmission of data within the SNN in spike format. Furthermore, we propose LCMT to enable the adaptive acquisition of membrane potential thresholds, thereby matching the conditions of varying membrane potentials and firing rates across channels and avoiding the cumbersome process of manually setting and tuning hyperparameters. Evaluating the SDP model on seven distinct tasks with SNN timestep $T_S=4$, we achieve results comparable to those of the ANN counterparts, along with faster convergence speeds than the baseline SNN method. This improvement is accompanied by a reduction of 94.3\% in dynamic energy consumption estimated on 45nm hardware.