STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation

📄 arXiv: 2601.20381v1 📥 PDF

作者: Alexandre Chapin, Emmanuel Dellandréa, Liming Chen

分类: cs.RO

发布日期: 2026-01-28


💡 一句话要点

STORM:面向机器人操作的基于槽位的任务感知对象中心表示

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 对象中心表示 视觉基础模型 多阶段训练 槽注意力 任务感知 视觉语义对齐

📋 核心要点

  1. 现有视觉基础模型缺乏显式对象级别结构,导致机器人操作任务中鲁棒性和可控性受限。
  2. STORM通过引入轻量级的对象中心自适应模块,利用语义感知的槽来增强冻结的视觉基础模型。
  3. 实验表明,STORM提高了对视觉干扰物的泛化能力和控制性能,优于直接使用冻结特征或端到端训练。

📝 摘要(中文)

视觉基础模型为机器人技术提供了强大的感知特征,但其密集表示缺乏显式的对象级别结构,限制了操作任务中的鲁棒性和可控性。我们提出了STORM(Slot-based Task-aware Object-centric Representation for robotic Manipulation),这是一个轻量级的对象中心自适应模块,它使用一小组语义感知的槽来增强冻结的视觉基础模型,用于机器人操作。STORM没有重新训练大型骨干网络,而是采用多阶段训练策略:首先使用语言嵌入通过视觉-语义预训练来稳定对象中心槽,然后将其与下游操作策略联合调整。这种分阶段的学习可以防止退化的槽形成,并在将感知与任务目标对齐的同时保持语义一致性。在对象发现基准和模拟操作任务上的实验表明,与直接使用冻结的基础模型特征或端到端训练对象中心表示相比,STORM提高了对视觉干扰物的泛化能力和控制性能。我们的结果突出了多阶段自适应作为一种有效的机制,可以将通用基础模型特征转换为用于机器人控制的任务感知对象中心表示。

🔬 方法详解

问题定义:现有视觉基础模型虽然提供了强大的感知能力,但其输出的密集特征缺乏对场景中独立物体的显式建模,这使得机器人难以理解和操作特定物体。直接使用这些密集特征进行控制,或者端到端训练对象中心表示,容易受到视觉干扰的影响,泛化能力较差。

核心思路:STORM的核心思路是通过引入一组可学习的“槽”(slots)来显式地表示场景中的不同物体。这些槽通过与视觉基础模型的特征进行交互,提取出每个物体的特征表示。为了提高泛化能力和任务相关性,STORM采用多阶段训练策略,先进行视觉-语义预训练,再与下游操作策略联合调整。

技术框架:STORM的整体框架包含三个主要模块:1) 冻结的视觉基础模型,用于提取场景的视觉特征;2) 对象中心槽模块,包含一组可学习的槽,用于提取和表示场景中的物体;3) 操作策略模块,用于根据对象中心槽的表示生成控制指令。训练过程分为两个阶段:首先,使用语言嵌入进行视觉-语义预训练,稳定对象中心槽的表示;然后,将对象中心槽模块与操作策略模块联合训练,使槽的表示与任务目标对齐。

关键创新:STORM的关键创新在于其多阶段训练策略和对象中心槽的设计。多阶段训练避免了从头开始训练大型视觉模型的需要,并提高了训练的稳定性和效率。对象中心槽的设计使得模型能够显式地表示场景中的不同物体,从而提高了对视觉干扰的鲁棒性和泛化能力。

关键设计:在视觉-语义预训练阶段,STORM使用对比学习损失,鼓励每个槽的表示与其对应物体的语言描述相似。在联合训练阶段,STORM使用强化学习损失,鼓励操作策略生成能够成功完成任务的控制指令。槽的数量是一个重要的超参数,需要根据场景中物体的数量进行调整。网络结构细节(例如槽模块的具体实现)未知。

📊 实验亮点

STORM在对象发现基准测试和模拟操作任务中表现出色。与直接使用冻结的基础模型特征相比,STORM提高了对视觉干扰物的泛化能力。在控制性能方面,STORM也优于端到端训练对象中心表示的方法。具体的性能提升数据未知。

🎯 应用场景

STORM适用于各种机器人操作任务,例如物体抓取、放置、组装等。它可以应用于工业自动化、家庭服务机器人、医疗机器人等领域,提高机器人的智能化水平和操作效率。该研究为机器人感知和控制提供了一种新的思路,有望推动机器人技术的发展。

📄 摘要(原文)

Visual foundation models provide strong perceptual features for robotics, but their dense representations lack explicit object-level structure, limiting robustness and contractility in manipulation tasks. We propose STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), a lightweight object-centric adaptation module that augments frozen visual foundation models with a small set of semantic-aware slots for robotic manipulation. Rather than retraining large backbones, STORM employs a multi-phase training strategy: object-centric slots are first stabilized through visual--semantic pretraining using language embeddings, then jointly adapted with a downstream manipulation policy. This staged learning prevents degenerate slot formation and preserves semantic consistency while aligning perception with task objectives. Experiments on object discovery benchmarks and simulated manipulation tasks show that STORM improves generalization to visual distractors, and control performance compared to directly using frozen foundation model features or training object-centric representations end-to-end. Our results highlight multi-phase adaptation as an efficient mechanism for transforming generic foundation model features into task-aware object-centric representations for robotic control.