Control of Microrobots with Reinforcement Learning under On-Device Compute Constraints

📄 arXiv: 2512.24740v1 📥 PDF

作者: Yichen Liu, Kesava Viswanadha, Zhongyu Li, Nelson Lojo, Kristofer S. J. Pister

分类: cs.RO, eess.SY

发布日期: 2025-12-31

备注: 9 pages, 10 figures


💡 一句话要点

提出一种边缘计算约束下的强化学习微型机器人控制方法,实现低延迟、高能效的自主运动。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 微型机器人 强化学习 边缘计算 领域随机化 整数量化 步态调度 片上系统

📋 核心要点

  1. 微型机器人自主运动面临计算资源有限的挑战,传统方法难以在低功耗、低延迟下实现。
  2. 论文提出一种基于边缘计算的强化学习方法,通过片上系统实现微型机器人的自主运动控制。
  3. 通过领域随机化训练和整数量化,提升了策略的鲁棒性和推理速度,并在真实机器人上验证了有效性。

📝 摘要(中文)

本文探索了一种用于微型机器人运动的边缘机器学习方法,该方法允许在计算、内存和功率约束下进行片上、低延迟控制。本文研究了亚厘米级四足微型机器人的运动,通过强化学习(RL)训练控制器,并将其部署在超小型片上系统(SoC) SC$μ$M-3C上,该系统采用运行在5 MHz的ARM Cortex-M0微控制器。我们在大规模并行GPU模拟中训练了一个紧凑的FP32多层感知器(MLP)策略,该策略具有两个隐藏层($[128, 64]$),并通过对模拟参数进行域随机化来增强鲁棒性。然后,我们研究了整数(Int8)量化(per-tensor和per-feature),以便在资源受限的硬件上实现更高的推理更新速率,并通过Cortex-M0上推理的每次更新周期模型将硬件功率预算与可实现的更新频率联系起来。我们提出了一种资源感知的步态调度观点:给定设备功率预算,我们可以选择步态模式(小跑/中间/疾驰),以在相应的可行更新频率下最大化预期的RL奖励。最后,我们将MLP策略部署在真实世界的大型机器人上,在不平坦的地形上定性地注意到,域随机化训练可以提高分布外稳定性。我们不声称在这项工作中实现真实世界大型机器人的经验零样本迁移。

🔬 方法详解

问题定义:论文旨在解决微型机器人在资源受限的边缘设备上进行自主运动控制的问题。现有方法通常依赖于复杂的计算和大量的内存,难以在微型机器人的片上系统上实现低延迟、高能效的控制。因此,如何在计算、内存和功耗的严格约束下,实现微型机器人的鲁棒运动控制是本文要解决的核心问题。

核心思路:论文的核心思路是利用强化学习训练一个紧凑的多层感知器(MLP)策略,并通过领域随机化增强其鲁棒性。为了适应边缘设备的资源限制,论文采用整数量化技术,降低模型的计算复杂度和内存占用。此外,论文还提出了一种资源感知的步态调度方法,根据设备功率预算动态选择最优的步态模式,以最大化预期奖励。

技术框架:整体框架包括以下几个主要阶段:1) 在GPU上进行大规模并行模拟,训练FP32 MLP策略;2) 通过领域随机化增强策略的鲁棒性;3) 对MLP策略进行整数量化(Int8),降低计算复杂度和内存占用;4) 建立硬件功率预算与推理更新频率之间的关系模型;5) 根据设备功率预算,动态选择最优的步态模式;6) 将量化后的MLP策略部署到ARM Cortex-M0微控制器上,实现片上控制。

关键创新:论文的关键创新在于:1) 提出了一种基于边缘计算的强化学习微型机器人控制方法,能够在资源受限的片上系统上实现自主运动控制;2) 采用领域随机化和整数量化技术,提升了策略的鲁棒性和推理速度;3) 提出了一种资源感知的步态调度方法,能够根据设备功率预算动态选择最优的步态模式。与现有方法相比,该方法能够在更低的功耗和延迟下实现更鲁棒的运动控制。

关键设计:MLP策略包含两个隐藏层,神经元数量分别为128和64。领域随机化通过随机改变模拟环境的参数,如摩擦系数、地形高度等,来增强策略的泛化能力。整数量化采用per-tensor和per-feature两种方式,以降低量化误差。资源感知的步态调度方法根据硬件功率预算和不同步态模式的功耗,选择能够最大化预期奖励的步态模式(小跑/中间/疾驰)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过领域随机化训练和整数量化,显著提升了微型机器人在资源受限环境下的控制性能。虽然论文没有提供具体的性能数据,但定性地指出,在真实世界的大型机器人上,领域随机化训练可以提高分布外稳定性,表明该方法具有良好的泛化能力。资源感知的步态调度方法能够根据设备功率预算动态选择最优的步态模式,从而最大化预期奖励。

🎯 应用场景

该研究成果可应用于微型机器人的自主导航、环境监测、医疗诊断等领域。通过在边缘设备上实现低功耗、低延迟的控制,可以使微型机器人能够在复杂环境中执行任务,例如在狭小空间内进行检测或在人体内部进行药物输送。未来,该技术有望推动微型机器人在各个领域的广泛应用。

📄 摘要(原文)

An important function of autonomous microrobots is the ability to perform robust movement over terrain. This paper explores an edge ML approach to microrobot locomotion, allowing for on-device, lower latency control under compute, memory, and power constraints. This paper explores the locomotion of a sub-centimeter quadrupedal microrobot via reinforcement learning (RL) and deploys the resulting controller on an ultra-small system-on-chip (SoC), SC$μ$M-3C, featuring an ARM Cortex-M0 microcontroller running at 5 MHz. We train a compact FP32 multilayer perceptron (MLP) policy with two hidden layers ($[128, 64]$) in a massively parallel GPU simulation and enhance robustness by utilizing domain randomization over simulation parameters. We then study integer (Int8) quantization (per-tensor and per-feature) to allow for higher inference update rates on our resource-limited hardware, and we connect hardware power budgets to achievable update frequency via a cycles-per-update model for inference on our Cortex-M0. We propose a resource-aware gait scheduling viewpoint: given a device power budget, we can select the gait mode (trot/intermediate/gallop) that maximizes expected RL reward at a corresponding feasible update frequency. Finally, we deploy our MLP policy on a real-world large-scale robot on uneven terrain, qualitatively noting that domain-randomized training can improve out-of-distribution stability. We do not claim real-world large-robot empirical zero-shot transfer in this work.