Wavelet Policy: Imitation Policy Learning in the Scale Domain with Wavelet Transforms

📄 arXiv: 2504.04991v3 📥 PDF

作者: Changchuan Yang, Yuhang Dong, Guanzhong Tian, Haizhou Ge, Hongrui Zhu

分类: cs.RO

发布日期: 2025-04-07 (更新: 2025-09-01)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于小波变换策略学习方法,提升机器人模仿学习在时域关键时刻的表现

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 机器人操作 小波变换 时域-尺度域 多尺度特征提取 可学习滤波器 动作预测 深度学习

📋 核心要点

  1. 现有模仿学习策略忽略了机器人操作轨迹预测中频域分析的利用,导致关键时刻出现误差。
  2. Wavelet Policy通过小波变换将模仿学习策略置于时域-尺度域,提取多尺度特征并增强特征映射。
  3. 实验表明,该方法在模拟和真实机器人任务中优于现有方法,尤其在关键时刻和远程设置下。

📝 摘要(中文)

本文提出了一种新的模仿学习策略,称为Wavelet Policy,它将模仿学习策略重新定义为时域-尺度域的问题。该方法利用小波变换(WT)和新的特征提取器(FE)进行特征预处理,并采用单编码器到多解码器(SE2MD)架构提取多尺度特征。此外,为了增强尺度域中的特征映射并适当增加模型容量,在每个解码器之后引入了可学习尺度域滤波器(LSDF),从而提高了在不同视觉条件下的适应性。实验结果表明,Wavelet Policy在保持参数量相当的情况下,优于四个具有挑战性的模拟机器人手臂任务和真实任务中的SOTA端到端方法,尤其是在关键时刻和远程设置中。

🔬 方法详解

问题定义:现有模仿学习方法通常直接将机器人观测(如高维视觉数据和本体感受)映射到动作空间,忽略了动作序列中固有的节奏信息,导致在关键时刻的预测出现误差。尤其是在边缘部署时,这种问题更加突出。

核心思路:论文的核心思路是将模仿学习问题从传统的时域预测转换为时域-尺度域的分析。通过小波变换将动作序列分解到不同的尺度上,从而提取不同频率成分的信息,捕捉动作序列中的节奏和模式。这样可以更好地理解动作的内在结构,提高预测的准确性,尤其是在关键时刻。

技术框架:Wavelet Policy的整体架构包括以下几个主要模块:1) 特征提取器(FE):用于从原始机器人观测数据中提取特征。2) 小波变换(WT):将提取的特征转换到时域-尺度域。3) 单编码器到多解码器(SE2MD)架构:编码器用于学习输入特征的表示,多个解码器分别负责不同尺度上的动作预测。4) 可学习尺度域滤波器(LSDF):在每个解码器之后引入,用于增强尺度域中的特征映射,提高模型对不同视觉条件的适应性。

关键创新:该方法最重要的技术创新点在于将小波变换引入模仿学习策略中,从而能够在尺度域上分析和预测动作序列。与传统的端到端方法相比,Wavelet Policy能够更好地捕捉动作序列中的节奏和模式,提高预测的准确性。此外,可学习尺度域滤波器(LSDF)的设计也增强了模型对不同视觉条件的适应性。

关键设计:特征提取器(FE)的具体结构未知,但应根据具体的机器人观测数据进行设计。小波变换采用离散小波变换(DWT),具体的小波基函数未知。SE2MD架构中,编码器和解码器的具体网络结构未知,但可以采用常见的循环神经网络(RNN)或Transformer结构。可学习尺度域滤波器(LSDF)的具体实现方式未知,但可以采用卷积神经网络(CNN)或全连接网络。损失函数采用均方误差(MSE)或交叉熵损失函数,用于衡量预测动作与真实动作之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Wavelet Policy在四个具有挑战性的模拟机器人手臂任务和真实任务中,在参数量相当的情况下,优于SOTA端到端方法。尤其是在关键时刻和远程设置中,性能提升更加明显。具体性能数据未知,但论文强调了该方法在关键时刻的优越性。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如装配、抓取、导航等。通过提高机器人模仿学习的准确性和鲁棒性,可以使机器人更好地适应复杂环境,完成更加精细的操作。此外,该方法还可以应用于其他时序预测任务,例如金融预测、语音识别等。

📄 摘要(原文)

Recent imitation learning policies, often framed as time series prediction tasks, directly map robotic observations into the action space, such as high-dimensional visual data and proprioception. When deploying at the edge, we found the underutilization of frequency domain analysis in robotic manipulation trajectory prediction leads to neglecting the inherent rhythm information embedded within action sequences, resulting in errors at critical moments. To address this, we reframe imitation learning policies through the lens of time-scale domain and introduce the Wavelet Policy. This novel approach employs wavelet transforms (WT) and new Features Extractor (FE) for feature preprocessing and extracts multi-scale features using the Single Encoder to Multiple Decoder (SE2MD) architecture. Furthermore, to enhance feature mapping in the scale domain and appropriately increase model capacity, we introduce a Learnable Scale Domain Filter (LSDF) after each decoder, improving adaptability under different visual conditions. Our results show that the Wavelet Policy maintaining a comparable parameter count outperforms SOTA end-to-end methods on four challenging simulation robotic arm tasks and real tasks, especially at critical moments and remote settings simultaneously. We release the source code and model checkpoint of simulation task at https://github.com/lurenjia384/Wavelet_Policy.