Understanding Multimodal Failure in Action-Chunking Behavioral Cloning

📄 arXiv: 2605.22493v1 📥 PDF

作者: Lorenzo Mazza, Massimiliano Datres, Ariel Rodriguez, Sebastian Bodenstedt, Gitta Kutyniok, Stefanie Speidel

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-05-21


💡 一句话要点

研究动作分块行为克隆中的多模态失败问题,揭示不同参数化方法的局限性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 行为克隆 多模态学习 动作分块 隐变量模型 生成模型

📋 核心要点

  1. 行为克隆在多模态动作空间中面临挑战,即相同观测可能对应多个合理动作,现有方法难以有效处理。
  2. 本文分析了隐变量策略和动作空间生成策略在动作分块行为克隆中处理多模态问题的失败模式,并提出了相应的改进策略。
  3. 实验表明,适当的后验-先验正则化和对基空间到动作空间映射平滑性的约束,可以提升多模态行为克隆的性能。

📝 摘要(中文)

行为克隆在相同观测对应多个有效动作时变得困难。本文研究了动作分块策略中的这一问题,并表明不同的多模态参数化方法会以不同的方式失败。对于隐变量策略,后验-先验正则化使部署时的采样更可靠,但过度正则化会移除区分演示模式所需的动作条件信息。减少正则化可以保留模式信息,但成功与否取决于先验是否覆盖相关的潜在区域。对于动作空间生成策略,多模态性受到基到动作传输平滑性的约束:具有小 Lipschitz 常数的映射无法为许多良好分离的模式分配大量概率。因此,覆盖许多模式需要在基空间中进行急剧转换或在动作空间中存在非支撑桥接区域。在合成多模态任务和机器人仿真基准上的实验支持了这些机制。

🔬 方法详解

问题定义:本文研究的是在动作分块行为克隆中,当相同的观测可以对应多个有效的动作时,行为克隆算法遇到的困难。现有的行为克隆方法在处理这种多模态问题时,往往无法学习到所有可能的动作模式,导致策略在部署时表现不佳。特别是对于动作分块策略,如何有效地表示和生成多个可能的动作序列是一个挑战。

核心思路:本文的核心思路是分析不同类型的多模态行为克隆策略(隐变量策略和动作空间生成策略)在处理多模态问题时的失败模式,并提出相应的改进策略。通过理论分析和实验验证,揭示了这些策略的局限性,并提出了如何通过调整正则化强度、约束映射平滑性等方式来提升性能。

技术框架:本文主要研究了两种类型的多模态行为克隆策略:1) 隐变量策略:使用隐变量来表示不同的动作模式,并通过后验-先验正则化来约束隐变量的分布。2) 动作空间生成策略:直接在动作空间中生成动作,并通过约束基空间到动作空间的映射平滑性来控制生成动作的多样性。文章分析了这两种策略在处理多模态问题时的优缺点,并提出了相应的改进方法。

关键创新:本文的关键创新在于深入分析了不同多模态行为克隆策略的失败模式,并从理论上解释了这些失败的原因。例如,对于隐变量策略,文章指出过度正则化会移除动作条件信息,而不足的正则化则会导致先验分布无法覆盖相关的潜在区域。对于动作空间生成策略,文章强调了基空间到动作空间映射平滑性的重要性,并指出覆盖多个模式需要在基空间中进行急剧转换或在动作空间中存在非支撑桥接区域。

关键设计:在隐变量策略中,关键的设计在于后验-先验正则化的强度。文章通过实验表明,需要仔细调整正则化强度,以平衡采样可靠性和模式信息保留。在动作空间生成策略中,关键的设计在于基空间到动作空间的映射函数。文章指出,需要选择合适的映射函数,以保证映射的平滑性,并避免生成非支撑区域的动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,对于隐变量策略,适当的后验-先验正则化可以提高部署时的采样可靠性。对于动作空间生成策略,约束基空间到动作空间的映射平滑性可以有效控制生成动作的多样性。在合成多模态任务和机器人仿真基准上,改进后的策略均取得了显著的性能提升。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶等领域,尤其是在复杂环境中需要根据相同观测采取不同策略的场景。通过理解和解决多模态行为克隆中的失败问题,可以提升机器人的泛化能力和适应性,使其能够更好地完成各种任务。

📄 摘要(原文)

Behavioral cloning becomes difficult when the same observation admits several valid actions. We study this problem for action-chunking policies and show that different multimodal parameterizations fail in different ways. For latent-variable policies, posterior-prior regularization makes deployment-time sampling more reliable, but excessive regularization removes the action-conditioned information needed to distinguish demonstrated modes. Reducing this regularization can preserve mode information, but then success depends on whether the prior covers the relevant latent regions. For action-space generative policies, multimodality is constrained by the smoothness of the base-to-action transport: a map with small Lipschitz constant cannot assign substantial probability to many well-separated modes. Covering many modes therefore requires either sharp transitions in base space or off-support bridge regions in action space. Experiments on synthetic multimodal tasks and robotic simulation benchmarks support these mechanisms.