StableIDM: Stabilizing Inverse Dynamics Model against Manipulator Truncation via Spatio-Temporal Refinement
作者: Kerui Li, Zhe Jing, Xiaofeng Wang, Zheng Zhu, Yukun Zhou, Guan Huang, Dongze Li, Qingkai Yang, Huaibo Huang
分类: cs.RO
发布日期: 2026-04-20
💡 一句话要点
StableIDM:通过时空优化稳定逆动力学模型,提升机械臂截断下的控制性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 逆动力学模型 机械臂截断 部分观测 时空优化 具身智能
📋 核心要点
- 现有逆动力学模型在机械臂部分遮挡或截断时,由于状态恢复不完整,导致控制性能显著下降。
- StableIDM通过机器人中心掩码抑制噪声,利用方向特征聚合进行空间推理,并结合时间动态优化保证运动连续性。
- 实验表明,StableIDM在机械臂截断场景下,显著提升了动作精度、任务成功率和端到端抓取性能。
📝 摘要(中文)
逆动力学模型(IDMs)将视觉观测映射到低层动作指令,是具身智能中数据标注和策略执行的关键组件。然而,在机械臂截断这种常见故障模式下,由于状态恢复的不适定性,IDMs的性能会严重下降,导致控制不稳定。本文提出了StableIDM,一个时空框架,通过优化视觉输入的特征来稳定这种部分可观测性下的动作预测。StableIDM集成了三个互补组件:(1)辅助的机器人中心掩码,用于抑制背景杂波;(2)方向特征聚合(DFA),用于几何感知的空间推理,它沿从可见手臂推断的方向提取各向异性特征;(3)时间动态优化(TDR),通过运动连续性来平滑和校正预测。大量评估验证了我们的方法:在AgiBot基准测试中,StableIDM在严重截断下将严格动作精度提高了12.1%,并在真实机器人重放中将平均任务成功率提高了9.7%。此外,当解码视频生成的计划时,它将端到端抓取成功率提高了11.5%,并且在作为自动标注器时,将下游VLA真实机器人成功率提高了17.6%。这些结果表明,StableIDM为具身人工智能中的策略执行和数据生成提供了一个强大且可扩展的骨干。
🔬 方法详解
问题定义:论文旨在解决机械臂在部分观测(例如机械臂被截断)情况下,逆动力学模型(IDM)性能严重下降的问题。现有IDM方法在完整观测下表现良好,但在部分观测下,由于状态估计的不确定性增加,导致动作预测不准确,控制不稳定。
核心思路:论文的核心思路是通过引入时空特征优化,增强IDM在部分观测下的鲁棒性。具体来说,利用机器人中心掩码减少背景干扰,通过方向特征聚合(DFA)进行几何感知的空间推理,并使用时间动态优化(TDR)保证预测的平滑性和连续性。这种设计旨在弥补部分观测带来的信息缺失,提高IDM的预测精度和稳定性。
技术框架:StableIDM框架主要包含三个模块:1) 机器人中心掩码:用于过滤掉与机器人无关的背景信息,突出机械臂的特征。2) 方向特征聚合 (DFA):根据可见机械臂的形状,推断出关键方向,并沿这些方向提取各向异性特征,从而进行几何感知的空间推理。3) 时间动态优化 (TDR):利用相邻时间步的运动信息,对当前时刻的动作预测进行平滑和校正,保证运动的连续性。这三个模块协同工作,共同提升IDM在部分观测下的性能。
关键创新:该论文的关键创新在于提出了一个综合的时空优化框架,能够有效地应对机械臂截断等部分观测问题。DFA模块能够根据可见机械臂的形状进行自适应的空间推理,TDR模块则利用时间信息进行动态校正,这两个模块的结合使得StableIDM能够更好地处理部分观测带来的不确定性。与现有方法相比,StableIDM更加关注部分观测下的特征提取和优化,而不是简单地依赖于更复杂的模型结构。
关键设计:DFA模块的关键设计在于方向推断机制,它根据可见机械臂的像素分布,推断出关键的方向向量,并沿这些方向进行特征聚合。TDR模块的关键设计在于使用循环神经网络(RNN)或Transformer等时序模型,对历史动作和观测信息进行建模,从而实现对当前动作的平滑和校正。损失函数方面,除了标准的动作预测损失外,还可以引入额外的正则化项,例如平滑性损失,以鼓励预测的连续性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,StableIDM在AgiBot基准测试中,在严重截断情况下,动作精度提升了12.1%。在真实机器人重放实验中,平均任务成功率提高了9.7%。此外,当StableIDM用于解码视频生成的计划时,端到端抓取成功率提高了11.5%。作为自动标注器时,下游VLA真实机器人成功率提高了17.6%。这些数据表明,StableIDM在各种场景下都具有显著的性能提升。
🎯 应用场景
StableIDM可应用于各种具身智能任务,如机器人操作、自动驾驶和虚拟助手。它能够提高机器人在复杂环境和意外情况下的鲁棒性和可靠性。此外,StableIDM还可以作为自动标注工具,为视觉语言动作(VLA)等任务生成高质量的训练数据,降低人工标注成本,加速相关技术的发展。
📄 摘要(原文)
Inverse Dynamics Models (IDMs) map visual observations to low-level action commands, serving as central components for data labeling and policy execution in embodied AI. However, their performance degrades severely under manipulator truncation, a common failure mode that makes state recovery ill-posed and leads to unstable control. We present StableIDM, a spatio-temporal framework that refines features from visual inputs to stabilize action predictions under such partial observability. StableIDM integrates three complementary components: (1) auxiliary robot-centric masking to suppress background clutter, (2) Directional Feature Aggregation (DFA) for geometry-aware spatial reasoning, which extracts anisotropic features along directions inferred from the visible arm and (3) Temporal Dynamics Refinement (TDR) to smooth and correct predictions via motion continuity. Extensive evaluations validate our approach: StableIDM improves strict action accuracy by 12.1% under severe truncation on the AgiBot benchmark, and increases average task success by 9.7% in real-robot replay. Moreover, it boosts end-to-end grasp success by 11.5% when decoding video-generated plans, and improves downstream VLA real-robot success by 17.6% when functioning as an automatic annotator. These results demonstrate that StableIDM provides a robust and scalable backbone for both policy execution and data generation in embodied artificial intelligence.