Act2Goal: From World Model To General Goal-conditioned Policy
作者: Pengfei Zhou, Liliang Chen, Shengcong Chen, Di Chen, Wenzhi Zhao, Rongjun Jin, Guanghui Ren, Jianlan Luo
分类: cs.RO, cs.AI
发布日期: 2025-12-29
💡 一句话要点
Act2Goal:基于世界模型和多尺度时序控制的通用目标条件策略
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人操作 目标条件策略 世界模型 多尺度时序控制 零样本泛化 在线自适应 长时程任务
📋 核心要点
- 现有目标条件策略难以处理长时程操作任务,主要原因是它们依赖于单步动作预测,缺乏对任务进度的显式建模。
- Act2Goal的核心思想是结合目标条件视觉世界模型和多尺度时序控制,生成中间视觉状态序列,并利用多尺度时序哈希进行轨迹分解。
- 实验表明,Act2Goal在零样本泛化和在线自适应方面表现出色,在真实机器人实验中,成功率从30%提高到90%。
📝 摘要(中文)
本文提出Act2Goal,一种通用的目标条件操作策略,它集成了目标条件视觉世界模型和多尺度时序控制。针对现有方法在长时程操作中依赖单步动作预测、缺乏任务进度显式建模的问题,Act2Goal利用世界模型生成中间视觉状态序列,捕捉长时程结构。引入多尺度时序哈希(MSTH),将想象轨迹分解为密集的近端帧(用于细粒度闭环控制)和稀疏的远端帧(用于锚定全局任务一致性)。该策略通过端到端交叉注意力将这些表示与电机控制相结合,实现连贯的长时程行为,同时对局部扰动保持反应性。Act2Goal在新的物体、空间布局和环境中实现了强大的零样本泛化。通过基于LoRA的微调和后见之明目标重标记,实现了免奖励在线自适应,无需外部监督即可快速自主改进。真实机器人实验表明,Act2Goal在具有挑战性的分布外任务中,成功率从30%提高到90%,验证了具有多尺度时序控制的目标条件世界模型为鲁棒的长时程操作提供了必要的结构化指导。
🔬 方法详解
问题定义:现有基于视觉目标的操作任务方法,尤其是在长时程任务中,面临着难以有效建模任务进度和缺乏鲁棒性的问题。它们通常依赖于单步动作预测,无法充分利用任务的整体结构,容易受到局部扰动的影响。
核心思路:Act2Goal的核心思路是利用目标条件视觉世界模型来生成一个中间视觉状态序列,从而显式地建模任务的进度。然后,通过多尺度时序哈希(MSTH)将这个序列分解为不同尺度的帧,以便进行细粒度的闭环控制和全局任务一致性维护。这种方法旨在结合规划和控制的优点,提高操作任务的鲁棒性和泛化能力。
技术框架:Act2Goal的整体框架包括以下几个主要模块:1) 目标条件视觉世界模型:用于生成从当前状态到目标状态的中间视觉状态序列。2) 多尺度时序哈希(MSTH):将生成的视觉轨迹分解为密集的近端帧和稀疏的远端帧。3) 策略网络:通过端到端交叉注意力机制,将MSTH的输出与电机控制相结合,生成动作指令。4) 在线自适应模块:利用后见之明目标重标记和LoRA微调,实现免奖励的在线学习。
关键创新:Act2Goal的关键创新在于将目标条件视觉世界模型与多尺度时序控制相结合。MSTH是一种新颖的时序表示方法,它允许策略网络同时关注局部细节和全局结构。此外,通过在线自适应模块,Act2Goal能够在没有外部监督的情况下,快速适应新的环境和任务。
关键设计:MSTH的关键设计在于如何选择近端帧和远端帧。近端帧的选择保证了策略能够对局部扰动做出快速反应,而远端帧的选择则保证了策略能够朝着目标方向前进。策略网络采用交叉注意力机制,将视觉信息和电机控制信息融合在一起。在线自适应模块使用LoRA进行微调,以减少计算成本和防止过拟合。
🖼️ 关键图片
📊 实验亮点
Act2Goal在真实机器人实验中表现出色,在具有挑战性的分布外任务中,成功率从30%提高到90%。通过在线自适应,Act2Goal能够在几分钟内自主改进,无需外部监督。这些结果表明,Act2Goal是一种有效的通用目标条件操作策略,具有很强的泛化能力和鲁棒性。
🎯 应用场景
Act2Goal具有广泛的应用前景,例如:自动化装配、家庭服务机器人、医疗机器人等。它可以应用于各种需要长时程操作和高鲁棒性的任务中。通过在线自适应,Act2Goal还可以快速适应新的环境和任务,降低了部署成本和维护难度。该研究的成果有助于推动机器人技术在实际场景中的应用。
📄 摘要(原文)
Specifying robotic manipulation tasks in a manner that is both expressive and precise remains a central challenge. While visual goals provide a compact and unambiguous task specification, existing goal-conditioned policies often struggle with long-horizon manipulation due to their reliance on single-step action prediction without explicit modeling of task progress. We propose Act2Goal, a general goal-conditioned manipulation policy that integrates a goal-conditioned visual world model with multi-scale temporal control. Given a current observation and a target visual goal, the world model generates a plausible sequence of intermediate visual states that captures long-horizon structure. To translate this visual plan into robust execution, we introduce Multi-Scale Temporal Hashing (MSTH), which decomposes the imagined trajectory into dense proximal frames for fine-grained closed-loop control and sparse distal frames that anchor global task consistency. The policy couples these representations with motor control through end-to-end cross-attention, enabling coherent long-horizon behavior while remaining reactive to local disturbances. Act2Goal achieves strong zero-shot generalization to novel objects, spatial layouts, and environments. We further enable reward-free online adaptation through hindsight goal relabeling with LoRA-based finetuning, allowing rapid autonomous improvement without external supervision. Real-robot experiments demonstrate that Act2Goal improves success rates from 30% to 90% on challenging out-of-distribution tasks within minutes of autonomous interaction, validating that goal-conditioned world models with multi-scale temporal control provide structured guidance necessary for robust long-horizon manipulation. Project page: https://act2goal.github.io/