STARRY: Spatial-Temporal Action-Centric World Modeling for Robotic Manipulation
作者: Yuxuan Tian, Yurun Jin, Bin Yu, Yukun Shi, Hao Wu, Chi Harold Liu, Kai Chen, Cong Huang
分类: cs.RO
发布日期: 2026-04-29
备注: 19 pages
💡 一句话要点
STARRY:面向机器人操作的时空动作中心世界建模
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 世界建模 时空预测 动作生成 几何感知 注意力机制
📋 核心要点
- 现有机器人操作策略难以充分建模与动作相关的时空交互结构,限制了其在复杂操作任务中的表现。
- STARRY通过联合去噪时空潜在变量和动作序列,并将几何信息融入注意力机制,实现了动作中心的时空世界建模。
- 实验表明,STARRY在仿真和真实环境中均显著提升了机器人操作的成功率,验证了其有效性。
📝 摘要(中文)
机器人操作任务需要对未来的时空交互进行推理,但现有的视觉语言动作策略和世界模型增强的策略未能充分建模与动作相关的时空交互结构。本文提出了STARRY,一种世界模型增强的动作生成策略,它将时空预测与动作生成对齐。STARRY联合去噪未来的时空潜在变量和动作序列,并引入了几何感知选择性注意力调制,将预测的深度和末端执行器几何形状转换为token对齐的权重,用于选择性动作注意力调制。在RoboTwin 2.0上,STARRY在Clean和Randomized设置下分别实现了93.82%/93.30%的平均成功率。真实世界的实验进一步将平均成功率从42.5%提高到70.8%(相对于$π_{0.5}$),证明了动作中心时空世界建模对于时空需求高的机器人动作生成的有效性。
🔬 方法详解
问题定义:机器人操作任务需要预测未来时空交互,现有方法,如视觉语言动作策略和世界模型增强策略,未能充分建模与动作相关的时空交互结构。这导致策略难以准确预测未来状态,从而影响操作的成功率。现有方法缺乏对动作的时空依赖性的有效建模,无法充分利用环境中的几何信息。
核心思路:STARRY的核心思路是将时空预测与动作生成对齐,通过联合建模未来的时空潜在变量和动作序列,实现动作中心的时空世界建模。利用预测的深度信息和末端执行器几何形状,通过几何感知选择性注意力调制,引导动作生成过程,从而提高操作的准确性和鲁棒性。
技术框架:STARRY包含以下主要模块:1) 时空潜在变量预测模块,用于预测未来的时空状态;2) 动作序列生成模块,用于生成机器人执行的动作序列;3) 几何感知选择性注意力调制模块,用于将预测的深度和末端执行器几何形状转换为token对齐的权重,以调制动作注意力。整体流程是,首先利用历史观测预测未来的时空潜在变量,然后基于预测的潜在变量和几何信息生成动作序列,最后执行生成的动作。
关键创新:STARRY的关键创新在于:1) 提出了动作中心的时空世界建模方法,将时空预测与动作生成对齐;2) 引入了几何感知选择性注意力调制,利用预测的深度和末端执行器几何形状来引导动作生成。与现有方法相比,STARRY更有效地建模了动作的时空依赖性,并充分利用了环境中的几何信息。
关键设计:几何感知选择性注意力调制模块是关键设计之一。该模块首先将预测的深度图转换为点云,然后计算点云与末端执行器几何形状之间的距离,得到token对齐的权重。这些权重用于调制动作注意力,使得策略更加关注与动作相关的区域。损失函数包括时空潜在变量预测损失和动作序列生成损失。网络结构采用Transformer架构,用于建模时空依赖性。
🖼️ 关键图片
📊 实验亮点
STARRY在RoboTwin 2.0仿真环境中,Clean和Randomized设置下分别实现了93.82%/93.30%的平均成功率。在真实世界的实验中,STARRY将平均成功率从42.5%提高到70.8%(相对于$π_{0.5}$),显著优于基线方法,证明了其在真实环境中的有效性。这些实验结果表明,动作中心的时空世界建模能够有效提升机器人操作的性能。
🎯 应用场景
STARRY具有广泛的应用前景,可应用于各种机器人操作任务,如装配、抓取、放置等。该研究成果有助于提升机器人在复杂环境中的操作能力,实现更智能、更自主的机器人系统。未来,STARRY可以进一步扩展到多机器人协作、人机协作等领域,推动机器人技术的发展。
📄 摘要(原文)
Robotic manipulation critically requires reasoning about future spatial-temporal interactions, yet existing VLA policies and world-model-enhanced policies do not fully model action-relevant spatial-temporal interaction structure. We propose STARRY, a world-model-enhanced action-generation policy that aligns spatial-temporal prediction with action generation. STARRY jointly denoises future spatial-temporal latents and action sequences, and introduces Geometry-Aware Selective Attention Modulation to convert predicted depth and end-effector geometry into token-aligned weights for selective action-attention modulation. On RoboTwin 2.0, STARRY achieves 93.82% / 93.30% average success under Clean and Randomized settings. Real-world experiments further improve average success from 42.5% to 70.8% over $π_{0.5}$, demonstrating the effectiveness of action-centric spatial-temporal world modeling for spatial-temporally demanding robotic action generation.