Saliency-Aware Quantized Imitation Learning for Efficient Robotic Control

📄 arXiv: 2505.15304v2 📥 PDF

作者: Seongmin Park, Hyungmin Kim, Sangwoo Kim, Wonseok Jeon, Juyoung Yang, Byeongwook Jeon, Yoonseon Oh, Jungwook Choi

分类: cs.RO

发布日期: 2025-05-21 (更新: 2025-05-30)

备注: arXiv admin note: text overlap with arXiv:2412.01034


💡 一句话要点

提出基于显著性感知的量化模仿学习SQIL,用于高效机器人控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 量化感知训练 模仿学习 显著性感知 机器人控制 边缘计算

📋 核心要点

  1. 现有基于深度神经网络的策略模型计算开销大,难以在资源受限的机器人和自动驾驶等场景中部署。
  2. 提出SQIL方法,通过量化感知训练和显著性加权损失,在低比特量化下保持任务关键状态的决策精度。
  3. 实验表明,SQIL在多种模拟和真实世界任务中,能够以低精度量化实现接近全精度的性能,并显著提升效率。

📝 摘要(中文)

基于深度神经网络(DNN)的策略模型,如视觉-语言-动作(VLA)模型,擅长从多模态输入中自动进行复杂决策。然而,扩展这些模型会显著增加计算开销,从而使在资源受限的环境(如机器人操作和自动驾驶)中的部署变得复杂。为了解决这个问题,我们提出了显著性感知量化模仿学习(SQIL),它结合了量化感知训练和针对任务关键状态的选择性损失加权策略。通过显著性分数识别这些状态并在训练损失中强调它们,SQIL在低比特精度下保持决策保真度。我们在具有环境变化的广泛模拟基准、真实世界任务和跨领域任务(自动驾驶、物理模拟)中验证了SQIL的泛化能力,始终恢复了全精度性能。值得注意的是,用于机器人操作的4位权重量化VLA模型在边缘GPU上实现了高达2.5倍的速度提升和2.5倍的节能,且精度损失最小。这些结果突出了SQIL在资源受限设备上有效部署基于大型IL的策略模型的潜力。

🔬 方法详解

问题定义:论文旨在解决深度神经网络策略模型(如VLA模型)在资源受限设备上部署困难的问题。现有方法在模型量化时,容易损失关键状态的决策精度,导致性能下降。

核心思路:论文的核心思路是,通过识别任务中的关键状态,并在量化训练过程中对这些状态给予更高的关注,从而在低比特量化下保持模型的决策能力。具体来说,利用显著性分数来衡量状态的重要性,并将其用于调整训练损失的权重。

技术框架:SQIL方法主要包含两个关键组成部分:显著性感知模块和量化感知训练模块。首先,显著性感知模块用于计算每个状态的显著性分数,该分数反映了该状态对完成任务的重要性。然后,量化感知训练模块利用这些显著性分数来调整训练损失的权重,使得模型在训练过程中更加关注关键状态。整个框架采用模仿学习范式,通过模仿专家策略来训练模型。

关键创新:SQIL的关键创新在于将显著性感知与量化感知训练相结合。传统的量化方法通常忽略了不同状态的重要性差异,导致量化后模型在关键状态上的性能下降。SQIL通过引入显著性感知,使得模型能够有选择性地保留关键状态的信息,从而在低比特量化下实现更好的性能。

关键设计:论文中,显著性分数可以通过多种方式计算,例如使用梯度信息或注意力机制。损失函数采用加权交叉熵损失,其中权重由显著性分数决定。量化感知训练采用标准的量化训练流程,包括模拟量化操作和梯度截断等技术。具体的网络结构取决于具体的任务,可以是卷积神经网络、循环神经网络或Transformer等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SQIL方法在多个模拟和真实世界任务中都取得了显著的性能提升。例如,在机器人操作任务中,使用4比特量化的VLA模型在边缘GPU上实现了高达2.5倍的速度提升和2.5倍的节能,同时保持了与全精度模型相近的性能。此外,SQIL在跨领域任务中也表现出良好的泛化能力。

🎯 应用场景

SQIL方法适用于各种需要高效部署深度学习策略模型的场景,例如机器人操作、自动驾驶、无人机控制等。通过降低模型的计算复杂度和存储需求,SQIL可以使这些模型在资源受限的边缘设备上运行,从而实现更快的响应速度和更低的功耗。该研究对于推动机器人和自动驾驶等领域的发展具有重要意义。

📄 摘要(原文)

Deep neural network (DNN)-based policy models, such as vision-language-action (VLA) models, excel at automating complex decision-making from multi-modal inputs. However, scaling these models greatly increases computational overhead, complicating deployment in resource-constrained settings like robot manipulation and autonomous driving. To address this, we propose Saliency-Aware Quantized Imitation Learning (SQIL), which combines quantization-aware training with a selective loss-weighting strategy for mission-critical states. By identifying these states via saliency scores and emphasizing them in the training loss, SQIL preserves decision fidelity under low-bit precision. We validate SQIL's generalization capability across extensive simulation benchmarks with environment variations, real-world tasks, and cross-domain tasks (self-driving, physics simulation), consistently recovering full-precision performance. Notably, a 4-bit weight-quantized VLA model for robotic manipulation achieves up to 2.5x speedup and 2.5x energy savings on an edge GPU with minimal accuracy loss. These results underline SQIL's potential for efficiently deploying large IL-based policy models on resource-limited devices.