PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations
作者: Yang Zhang, Jiangyuan Zhao, Chenyou Fan, Fangzheng Yan, Tian Li, Haitong Tang, Sen Fu, Xuan'er Wu, Qizhen Weng, Weinan Zhang, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li
分类: cs.AI, cs.LG, cs.RO
发布日期: 2026-04-30
备注: 38 pages, 12 figures
💡 一句话要点
PRTS:通过对比表示进行原始推理和任务处理的机器人VLA基础模型
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人控制 视觉-语言-动作模型 对比强化学习 目标条件强化学习 目标可达性 具身推理 离线学习
📋 核心要点
- 现有VLA模型主要依赖监督行为克隆,忽略了机器人学习中理解时间任务进展的重要性。
- PRTS通过目标条件强化学习重构预训练,利用对比学习学习状态-动作和目标嵌入的统一空间,评估目标可达性。
- PRTS在多个基准测试和真实世界任务中取得了SOTA性能,尤其在长时程和零样本任务上提升显著。
📝 摘要(中文)
视觉-语言-动作(VLA)模型通过强大的视觉-语言先验推进了机器人控制。然而,现有的VLA主要将预训练构建为监督行为克隆,忽略了机器人学习作为目标导向过程的本质,该过程需要理解时间任务的进展。我们提出了PRTS(原始推理和任务处理系统),一个VLA基础模型,通过目标条件强化学习重新构建预训练。通过将语言指令视为目标,并采用对比强化学习,PRTS学习了一个统一的嵌入空间,其中状态-动作和目标嵌入的内积近似于对数折扣目标占用率,即从当前状态-动作到达语言指定目标的概率,从而定量评估物理可行性,超越了静态语义匹配。PRTS直接从离线轨迹中提取这种密集的目标可达性监督,无需奖励注释,并通过角色感知因果掩码将其折叠到VLM骨干中,与原始行为克隆相比,开销可忽略不计。这种范式赋予了高层推理系统内在的目标可达性意识,桥接了语义推理和时间任务进展,并进一步有益于目标条件下的动作预测。PRTS在167B tokens的多样化操作和具身推理数据上进行预训练,在LIBERO、LIBERO-Pro、LIBERO-Plus、SimplerEnv以及包含14个复杂任务的真实世界套件上达到了最先进的性能,在长时程、接触密集和零样本新指令设置上尤其取得了显著的提升,证实了注入目标可达性意识显著提高了通用机器人基础策略的执行成功率和长时程规划能力。
🔬 方法详解
问题定义:现有VLA模型主要采用监督行为克隆进行预训练,缺乏对机器人任务中时间进展的理解和对目标可达性的感知。这导致模型在长时程任务、接触密集型任务以及面对新指令时表现不佳。现有方法难以有效利用离线数据中的目标信息,缺乏对物理可行性的定量评估。
核心思路:PRTS的核心思路是将语言指令视为目标,并利用对比强化学习来学习一个统一的嵌入空间,该空间能够评估从当前状态-动作到达目标的概率(目标可达性)。通过这种方式,模型能够理解任务的进展,并更好地预测目标条件下的动作。这种方法将语义推理与时间任务进展联系起来,提高了模型的推理能力和规划能力。
技术框架:PRTS的整体框架包括以下几个主要模块:1) 视觉-语言模型(VLM)骨干网络,用于提取视觉和语言特征。2) 对比强化学习模块,用于学习状态-动作和目标嵌入的统一空间。3) 角色感知因果掩码,用于将目标可达性信息注入到VLM骨干网络中。整个流程是:首先,VLM提取视觉和语言特征;然后,对比强化学习模块利用离线轨迹学习目标可达性;最后,通过角色感知因果掩码将目标可达性信息融入VLM,用于动作预测。
关键创新:PRTS的关键创新在于将目标条件强化学习引入VLA模型的预训练中,并利用对比学习来学习目标可达性。与传统的行为克隆方法相比,PRTS能够更好地理解任务的进展,并对物理可行性进行定量评估。此外,角色感知因果掩码的设计使得目标可达性信息能够有效地融入VLM骨干网络中,而不会引入过多的计算开销。
关键设计:PRTS的关键设计包括:1) 对比损失函数,用于学习状态-动作和目标嵌入的统一空间,使得目标可达性高的状态-动作对与目标嵌入的内积更大。2) 角色感知因果掩码,用于控制目标可达性信息在VLM中的传播,避免信息泄露。3) 负样本采样策略,用于提高对比学习的效率和效果。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
PRTS在LIBERO、LIBERO-Pro、LIBERO-Plus、SimplerEnv以及包含14个复杂任务的真实世界套件上达到了最先进的性能。尤其在长时程、接触密集和零样本新指令设置上取得了显著的提升,证实了注入目标可达性意识显著提高了通用机器人基础策略的执行成功率和长时程规划能力。具体性能提升数据未在摘要中给出,属于未知信息。
🎯 应用场景
PRTS具有广泛的应用前景,可用于各种机器人操作和具身推理任务,例如家庭服务机器人、工业自动化机器人、医疗机器人等。该模型能够提高机器人在复杂环境中的自主性和适应性,使其能够更好地完成各种任务。未来,PRTS可以进一步扩展到其他领域,例如自动驾驶、虚拟助手等。
📄 摘要(原文)
Vision-Language-Action (VLA) models advance robotic control via strong visual-linguistic priors. However, existing VLAs predominantly frame pretraining as supervised behavior cloning, overlooking the fundamental nature of robot learning as a goal-reaching process that requires understanding temporal task progress. We present \textbf{PRTS} (\textbf{P}rimitive \textbf{R}easoning and \textbf{T}asking \textbf{S}ystem), a VLA foundation model that reformulates pretraining through Goal-Conditioned Reinforcement Learning. By treating language instructions as goals and employing contrastive reinforcement learning, PRTS learns a unified embedding space where the inner product of state-action and goal embeddings approximates the log-discounted goal occupancy, the probability of reaching the language-specified goal from the current state-action, quantitatively assessing physical feasibility beyond static semantic matching. PRTS draws this dense goal-reachability supervision directly from offline trajectories without reward annotations, and folds it into the VLM backbone via a role-aware causal mask, incurring negligible overhead over vanilla behavior cloning. This paradigm endows the high-level reasoning system with intrinsic goal reachability awareness, bridging semantic reasoning and temporal task progress, and further benefits goal-conditioned action prediction. Pretrained on 167B tokens of diverse manipulation and embodied-reasoning data, PRTS reaches state-of-the-art performance on LIBERO, LIBERO-Pro, LIBERO-Plus, SimplerEnv, and a real-world suite of 14 complex tasks, with particularly substantial gains on long-horizon, contact-rich, and zero-shot novel-instruction settings, confirming that injecting goal-reachability awareness significantly improves both execution success and long-horizon planning of general-purpose robotic foundation policies.