Action Tokenizer Matters in In-Context Imitation Learning

📄 arXiv: 2503.01206v3 📥 PDF

作者: An Dinh Vuong, Minh Nhat Vu, Dong An, Ian Reid

分类: cs.RO

发布日期: 2025-03-03 (更新: 2025-10-22)

备注: IROS 2025

DOI: 10.1109/IROS60139.2025.11246836


💡 一句话要点

提出LipVQ-VAE,解决ICIL中动作Tokenizer忽略时序平滑性的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 上下文模仿学习 动作Tokenizer 时序平滑性 变分自编码器 Lipschitz约束

📋 核心要点

  1. 现有动作Tokenizer在ICIL中忽略了动作的时序平滑性,导致机器人执行不稳定。
  2. 提出LipVQ-VAE,通过在潜在空间施加Lipschitz约束,保证动作的平滑性和稳定性。
  3. 实验表明,LipVQ-VAE在模拟和真实环境中均能提升ICIL性能,并生成更平滑的轨迹。

📝 摘要(中文)

上下文模仿学习(ICIL)是一种新的范式,它使机器人能够从演示中推广到未见过的任务,而无需重新训练。一个结构良好的动作表示是有效捕获演示信息的关键,但动作tokenizer(离散化和编码动作的过程)在ICIL中仍未得到充分探索。本文首先系统地评估了ICIL中现有的动作tokenizer方法,并揭示了一个关键的局限性:虽然它们有效地编码了动作轨迹,但它们未能保持时间平滑性,这对于稳定的机器人执行至关重要。为了解决这个问题,我们提出了LipVQ-VAE,一种变分自编码器,它通过权重归一化在潜在动作空间中强制执行Lipschitz条件。通过将平滑性约束从原始动作输入传播到量化的潜在码本,LipVQ-VAE生成更稳定和平滑的动作。当集成到ICIL中时,LipVQ-VAE在高保真模拟器中提高了5.3%以上的性能,真实世界的实验证实了其产生更平滑、更可靠轨迹的能力。

🔬 方法详解

问题定义:ICIL依赖于动作Tokenizer将连续动作离散化,以便进行模仿学习。然而,现有的Tokenizer方法主要关注动作轨迹的编码,忽略了动作序列的时序平滑性。这导致生成的动作序列可能存在突变,从而影响机器人的稳定执行。现有方法的痛点在于无法保证离散化后的动作序列仍然保持原始动作的时序平滑性。

核心思路:论文的核心思路是通过在动作Tokenizer的潜在空间中施加Lipschitz约束,来保证动作的时序平滑性。Lipschitz约束可以限制潜在空间中相邻点的距离变化,从而使得解码后的动作序列也具有平滑性。具体来说,论文设计了一个变分自编码器(VAE),并在其潜在空间中通过权重归一化来强制执行Lipschitz条件。

技术框架:整体框架包括一个变分自编码器(VAE),其中编码器将原始动作序列映射到潜在空间,解码器将潜在空间中的表示解码为动作序列。为了保证潜在空间的平滑性,论文在VAE的潜在空间中引入了VQ-VAE的量化机制,并将Lipschitz约束施加在量化后的潜在码本上。整个训练过程包括重构损失、量化损失和Lipschitz约束损失。

关键创新:最重要的技术创新点在于将Lipschitz约束引入到动作Tokenizer的潜在空间中。与现有方法相比,LipVQ-VAE能够显式地保证动作序列的时序平滑性,从而提高机器人的执行稳定性。此外,通过VQ-VAE的量化机制,LipVQ-VAE能够学习到更紧凑和有效的动作表示。

关键设计:LipVQ-VAE的关键设计包括:1) 使用权重归一化来强制执行Lipschitz条件,具体来说,将解码器的权重进行归一化,使得其满足Lipschitz约束;2) 使用VQ-VAE的量化机制,将潜在空间离散化为码本,从而方便施加Lipschitz约束;3) 设计了重构损失、量化损失和Lipschitz约束损失,共同优化整个模型。损失函数的设计保证了重构的准确性、量化的有效性和潜在空间的平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LipVQ-VAE在高保真模拟器中将ICIL性能提高了5.3%以上,证明了其有效性。真实世界的实验也验证了LipVQ-VAE能够生成更平滑、更可靠的轨迹。与现有方法相比,LipVQ-VAE在动作平滑性方面有显著提升,从而提高了机器人的执行稳定性。

🎯 应用场景

该研究成果可应用于各种需要机器人模仿学习的场景,例如工业自动化、家庭服务机器人、自动驾驶等。通过提高机器人动作的平滑性和稳定性,可以提升机器人的工作效率和安全性,使其能够更好地适应复杂和动态的环境。未来,该方法可以进一步扩展到多模态输入和更复杂的任务中。

📄 摘要(原文)

In-context imitation learning (ICIL) is a new paradigm that enables robots to generalize from demonstrations to unseen tasks without retraining. A well-structured action representation is the key to capturing demonstration information effectively, yet action tokenizer (the process of discretizing and encoding actions) remains largely unexplored in ICIL. In this work, we first systematically evaluate existing action tokenizer methods in ICIL and reveal a critical limitation: while they effectively encode action trajectories, they fail to preserve temporal smoothness, which is crucial for stable robotic execution. To address this, we propose LipVQ-VAE, a variational autoencoder that enforces the Lipschitz condition in the latent action space via weight normalization. By propagating smoothness constraints from raw action inputs to a quantized latent codebook, LipVQ-VAE generates more stable and smoother actions. When integrating into ICIL, LipVQ-VAE improves performance by more than 5.3% in high-fidelity simulators, with real-world experiments confirming its ability to produce smoother, more reliable trajectories. Code and checkpoints are available at https://action-tokenizer-matters.github.io/