Robust Iterative Value Conversion: Deep Reinforcement Learning for Neurochip-driven Edge Robots

📄 arXiv: 2408.13018v1 📥 PDF

作者: Yuki Kadokawa, Tomohito Kodera, Yoshihisa Tsurumine, Shinya Nishimura, Takamitsu Matsubara

分类: cs.RO

发布日期: 2024-08-23

备注: Accepted by Robotics and Autonomous Systems


💡 一句话要点

提出RIVC,一种用于神经芯片驱动边缘机器人的鲁棒迭代价值转换深度强化学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 脉冲神经网络 神经芯片 边缘机器人 模型转换 量化 低功耗计算

📋 核心要点

  1. 现有方法在将深度强化学习策略从浮点神经网络转换为脉冲神经网络时,会因累积转换误差导致性能显著下降。
  2. RIVC通过优化FPNN以减少量化误差,并增强策略对转换误差的鲁棒性,从而解决SNN策略性能下降的问题。
  3. 实验表明,RIVC在神经芯片驱动的机器人上实现了更低的功耗(1/15)和更高的计算速度(5倍于边缘CPU)。

📝 摘要(中文)

神经芯片是一种能够复现大脑神经元信号处理机制的设备,它能以低功耗和高速度计算脉冲神经网络(SNN)。因此,神经芯片正受到电池容量受限的边缘机器人应用的关注。本文旨在实现深度强化学习(DRL),以获得适用于神经芯片实现的SNN策略。由于DRL需要复杂的函数逼近,我们专注于从浮点神经网络(FPNN)到SNN的转换技术,因为它是最可行的SNN技术之一。然而,DRL需要在每次策略更新时都进行到SNN的转换,以收集DRL学习周期的学习样本,该周期更新FPNN策略并收集SNN策略样本。累积的转换误差会显著降低SNN策略的性能。我们提出鲁棒迭代价值转换(RIVC)作为一种DRL,它结合了转换误差减少和对转换误差的鲁棒性。为了减少误差,FPNN使用与SNN相同数量的量化位进行优化,使得FPNN输出不会因量化而发生显著变化。为了增强对转换误差的鲁棒性,应用量化的FPNN策略被更新,以增加选择最优动作的概率与其他动作之间的差距。此步骤可防止策略最优动作的意外替换。我们在神经芯片驱动的机器人上验证了RIVC的有效性。结果表明,RIVC的功耗降低了1/15,计算速度提高了边缘CPU(四核ARM Cortex-A72)的五倍以上。之前没有针对转换误差采取对策的框架未能训练策略。实验视频可在https://youtu.be/Q5Z0-BvK1Tc观看。

🔬 方法详解

问题定义:论文旨在解决将深度强化学习(DRL)训练的浮点神经网络(FPNN)策略转换到脉冲神经网络(SNN)时,由于转换误差累积导致的SNN策略性能下降问题。现有的转换方法没有充分考虑量化误差和转换过程中的不确定性,导致最终SNN策略的性能远低于FPNN策略。

核心思路:论文的核心思路是通过减少转换误差和增强对转换误差的鲁棒性来提高SNN策略的性能。具体来说,首先通过使用与SNN相同的量化位数来优化FPNN,从而减少量化误差。然后,通过更新FPNN策略,增大最优动作与其他动作之间的概率差距,从而增强策略对转换误差的鲁棒性。

技术框架:RIVC框架包含以下主要步骤:1) 使用FPNN进行DRL训练;2) 使用与SNN相同的量化位数对FPNN进行量化;3) 更新量化后的FPNN策略,以增大最优动作与其他动作之间的概率差距;4) 将量化后的FPNN策略转换为SNN策略;5) 使用SNN策略在环境中进行交互,收集训练数据;6) 使用收集到的数据更新FPNN策略,重复步骤2-6。

关键创新:RIVC的关键创新在于同时考虑了转换误差的减少和鲁棒性。通过在FPNN训练过程中引入量化,减少了转换误差;通过增大最优动作与其他动作之间的概率差距,增强了策略对转换误差的鲁棒性。这种双管齐下的方法有效地提高了SNN策略的性能。

关键设计:论文的关键设计包括:1) 使用与SNN相同的量化位数优化FPNN,例如使用8-bit量化;2) 使用特定的损失函数来增大最优动作与其他动作之间的概率差距,例如使用hinge loss或margin loss;3) 迭代地进行FPNN策略更新和SNN策略转换,以不断优化SNN策略的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RIVC在神经芯片驱动的机器人上取得了显著的性能提升。与使用边缘CPU(四核ARM Cortex-A72)相比,RIVC的功耗降低了1/15,计算速度提高了5倍以上。此外,之前的框架在没有针对转换误差采取对策的情况下,无法成功训练策略,而RIVC能够有效地训练出高性能的SNN策略。

🎯 应用场景

该研究成果可应用于各种边缘机器人应用,尤其是在电池容量受限的场景下,例如无人机、移动机器人和可穿戴设备。通过使用神经芯片和SNN策略,可以显著降低功耗并提高计算速度,从而延长机器人的续航时间并提高其智能化水平。此外,该方法还可以推广到其他需要将深度学习模型部署到低功耗硬件上的应用。

📄 摘要(原文)

A neurochip is a device that reproduces the signal processing mechanisms of brain neurons and calculates Spiking Neural Networks (SNNs) with low power consumption and at high speed. Thus, neurochips are attracting attention from edge robot applications, which suffer from limited battery capacity. This paper aims to achieve deep reinforcement learning (DRL) that acquires SNN policies suitable for neurochip implementation. Since DRL requires a complex function approximation, we focus on conversion techniques from Floating Point NN (FPNN) because it is one of the most feasible SNN techniques. However, DRL requires conversions to SNNs for every policy update to collect the learning samples for a DRL-learning cycle, which updates the FPNN policy and collects the SNN policy samples. Accumulative conversion errors can significantly degrade the performance of the SNN policies. We propose Robust Iterative Value Conversion (RIVC) as a DRL that incorporates conversion error reduction and robustness to conversion errors. To reduce them, FPNN is optimized with the same number of quantization bits as an SNN. The FPNN output is not significantly changed by quantization. To robustify the conversion error, an FPNN policy that is applied with quantization is updated to increase the gap between the probability of selecting the optimal action and other actions. This step prevents unexpected replacements of the policy's optimal actions. We verified RIVC's effectiveness on a neurochip-driven robot. The results showed that RIVC consumed 1/15 times less power and increased the calculation speed by five times more than an edge CPU (quad-core ARM Cortex-A72). The previous framework with no countermeasures against conversion errors failed to train the policies. Videos from our experiments are available: https://youtu.be/Q5Z0-BvK1Tc.