Phase-Conditioned Imitation Learning with Autonomous Failure Recovery for Robust Deformable Object Manipulation

📄 arXiv: 2605.29407v1 📥 PDF

作者: Dayuan Chen, Kai Tang, Yukuan Zhang, Kazuhiro Kosuge, Yasuhisa Hirata

分类: cs.RO

发布日期: 2026-05-28

备注: Accepted to IEEE/ASME Transactions on Mechatronics

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于阶段条件模仿学习与自主故障恢复的柔性物体操作框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 模仿学习 柔性物体操作 阶段条件 自主故障恢复 力感知 多模态融合 机器人控制

📋 核心要点

  1. 传统模仿学习方法在柔性物体操作中易受状态混叠影响,难以从失败中自主恢复。
  2. 论文提出一种闭环分层架构,利用FiLM调节的ACT编码器和多模态阶段预测器,实现阶段特定行为和自主恢复。
  3. 实验表明,该系统在T恤悬挂任务中显著提高了成功率,证明了其在柔性物体操作中的有效性。

📝 摘要(中文)

本文提出了一种基于阶段条件和力感知的框架,用于鲁棒的柔性物体操作。标准的模仿学习策略,如基于Transformer的动作分块(ACT),依赖于推理时的马尔可夫假设,当视觉上相似的观测需要矛盾的动作时,会导致状态混叠,并阻止从执行失败中自主恢复。我们通过一个闭环分层架构来解决这个问题。一个FiLM条件ACT编码器基于当前任务阶段调节特征提取,使单个统一策略能够产生特定于阶段的行为,同时在各阶段之间共享动作动态。一个融合视觉、力和姿态反馈的多模态阶段预测器实时估计阶段,检测仅视觉无法察觉的接触失败,并自主触发恢复轨迹。该系统由一个用于柔顺执行的混合阻抗控制器和一个用于力感知数据收集的触觉遥操作界面完成。消融研究表明,基于FiLM的调制显著优于无条件和token级条件基线,t-SNE分析证实FiLM诱导了良好分离的、特定于阶段的特征表示。在用双臂悬挂和移除T恤的验证中,闭环系统通过自主错误恢复将悬挂成功率从56%提高到87%。

🔬 方法详解

问题定义:现有的模仿学习方法,如ACT,在柔性物体操作中面临状态混叠问题。由于柔性物体的状态变化复杂,视觉上相似的状态可能对应不同的操作阶段和所需动作,导致策略失效。此外,这些方法通常缺乏自主故障恢复机制,一旦操作失败,无法自动调整策略。

核心思路:论文的核心思路是将柔性物体操作分解为不同的阶段,并利用阶段信息来调节模仿学习策略。通过引入阶段预测器和FiLM调节的ACT编码器,使策略能够感知当前操作阶段,并根据阶段信息生成相应的动作。同时,利用多模态反馈(视觉、力和姿态)进行阶段预测,能够检测仅视觉无法察觉的接触失败,并触发自主恢复。

技术框架:该框架包含以下主要模块:1) FiLM条件ACT编码器:利用FiLM层根据当前阶段信息调节特征提取,生成阶段特定的动作。2) 多模态阶段预测器:融合视觉、力和姿态反馈,实时估计当前操作阶段。3) 混合阻抗控制器:实现柔顺的动作执行。4) 触觉遥操作界面:用于力感知数据收集。整个系统以闭环方式运行,阶段预测器检测到失败时,触发恢复轨迹。

关键创新:该论文的关键创新在于:1) 提出了一种基于阶段条件的模仿学习框架,能够有效解决柔性物体操作中的状态混叠问题。2) 引入了多模态阶段预测器,能够检测仅视觉无法察觉的接触失败,并触发自主恢复。3) 使用FiLM层进行特征调制,相比于无条件和token级条件方法,能够更好地分离不同阶段的特征表示。

关键设计:FiLM层被用于调节ACT编码器的特征提取过程。阶段预测器是一个多模态分类器,输入包括视觉特征、力传感器数据和姿态信息。损失函数包括动作预测损失和阶段预测损失。混合阻抗控制器用于实现柔顺的动作执行,允许机器人与环境进行交互。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该闭环系统在T恤悬挂任务中,通过自主错误恢复将悬挂成功率从56%提高到87%。消融研究表明,基于FiLM的调制显著优于无条件和token级条件基线。t-SNE分析证实FiLM诱导了良好分离的、特定于阶段的特征表示,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要柔性物体操作的场景,如服装整理、医疗手术、食品加工等。通过提高机器人操作的鲁棒性和自主性,可以降低人工干预的需求,提高生产效率和服务质量。未来,该技术有望应用于更复杂的柔性物体操作任务,例如复杂形状物体的抓取和操作。

📄 摘要(原文)

This paper presents a phase-conditioned, force-aware framework for robust deformable object manipulation. Standard imitation learning policies such as Action Chunking with Transformers (ACT) rely on a Markovian assumption at inference, causing state aliasing when visually similar observations require contradictory actions and preventing autonomous recovery from execution failures. We address this with a closed-loop hierarchical architecture. A FiLM-conditioned ACT encoder modulates feature extraction based on the current task phase, enabling a single unified policy to produce phase-specific behaviors while sharing action dynamics across phases. A multi-modal phase predictor fusing visual, force, and pose feedback estimates the phase in real time, detecting contact failures that are invisible to vision alone and autonomously triggering recovery trajectories. The system is completed by a hybrid impedance controller for compliant execution and a haptic teleoperation interface for force-aware data collection. Ablation studies show that FiLM-based modulation significantly outperforms both unconditioned and token-level conditioned baselines, and t-SNE analysis confirms that FiLM induces well-separated, phase-specific feature representations. Validated on hanging and removing a T-shirt with dual arms, the closed-loop system improves the hanging success rate from 56\% to 87\% through autonomous error recovery. Code and videos: https://leledeyuan00.github.io/phaser/