SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics
作者: Mengzhen Liu, Enshen Zhou, Cheng Chi, Yi Han, Shanyu Rong, Liming Chen, Pengwei Wang, Zhongyuan Wang, Shanghang Zhang
分类: cs.RO, cs.CV
发布日期: 2026-03-12
备注: Accepted to CVPR 2026. See project page at https://lmzpai.github.io/SaPaVe
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出SaPaVe以解决机器人主动感知与操作统一问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动感知 机器人操作 视觉-语言-动作 数据高效学习 3D几何感知 基准评估 动态环境
📋 核心要点
- 现有方法难以将语义驱动的主动感知与稳健的执行统一,导致机器人在复杂场景中的交互能力受限。
- SaPaVe框架通过解耦相机与操作动作,采用自下而上的训练策略,提升了数据利用效率和模型性能。
- 在真实世界任务中,SaPaVe相比于现有模型成功率提高了31.25%,展示了其在主动操作中的优势。
📝 摘要(中文)
主动感知与操作对于机器人在复杂场景中的交互至关重要。现有方法在将语义驱动的主动感知与稳健的视角不变执行统一方面存在困难。我们提出了SaPaVe,这是一个端到端框架,能够以数据高效的方式共同学习这些能力。该方法将相机与操作动作解耦,而不是将其置于共享的动作空间,并采用自下而上的训练策略:首先在大规模数据集上训练语义相机控制,然后使用混合数据共同优化两种动作类型。为支持该框架,我们引入了ActiveViewPose-200K数据集,包含20万对图像-语言-相机运动的配对,用于语义相机运动学习,并提出了一个3D几何感知模块,以提高动态视角下的执行稳健性。我们还推出了ActiveManip-Bench,这是第一个评估超越固定视角设置的主动操作的基准。大量实验表明,SaPaVe在真实世界任务中相比于近期的视觉-语言-动作模型如GR00T N1和π_0,成功率提高了31.25%。这些结果表明,紧密耦合的感知与执行,在解耦但协调的策略下训练,能够实现高效且可泛化的主动操作。
🔬 方法详解
问题定义:本论文旨在解决机器人在复杂场景中主动感知与操作的统一问题。现有方法往往无法有效结合语义信息与执行动作,导致在动态环境中的表现不佳。
核心思路:SaPaVe框架的核心思想是将相机控制与操作动作解耦,采用自下而上的训练策略,先进行语义相机控制的训练,再联合优化两种动作类型,以提高数据利用效率和模型的鲁棒性。
技术框架:该框架包括两个主要模块:首先是语义相机控制模块,使用ActiveViewPose-200K数据集进行训练;其次是操作动作优化模块,结合混合数据进行联合训练。整体流程是先独立训练相机控制,再进行联合优化。
关键创新:最重要的技术创新在于引入了3D几何感知模块,增强了在动态视角下的执行稳健性。此外,ActiveManip-Bench基准的提出为评估主动操作提供了新的标准。
关键设计:在模型设计中,采用了特定的损失函数以平衡相机控制与操作动作的优化,同时在网络结构上进行了调整,以适应解耦的训练策略。
🖼️ 关键图片
📊 实验亮点
SaPaVe在真实世界任务中的成功率相比于基线模型GR00T N1和π_0提高了31.25%,展示了其在主动操作领域的显著优势。这一结果表明,解耦的训练策略能够有效提升机器人在动态环境中的表现。
🎯 应用场景
该研究的潜在应用领域包括服务机器人、工业自动化和智能家居等场景。通过提升机器人在复杂环境中的主动感知与操作能力,SaPaVe能够显著提高机器人在实际应用中的效率和灵活性,未来可能推动更多智能系统的开发与应用。
📄 摘要(原文)
Active perception and manipulation are crucial for robots to interact with complex scenes. Existing methods struggle to unify semantic-driven active perception with robust, viewpoint-invariant execution. We propose SaPaVe, an end-to-end framework that jointly learns these capabilities in a data-efficient manner. Our approach decouples camera and manipulation actions rather than placing them in a shared action space, and follows a bottom-up training strategy: we first train semantic camera control on a large-scale dataset, then jointly optimize both action types using hybrid data. To support this framework, we introduce ActiveViewPose-200K, a dataset of 200k image-language-camera movement pairs for semantic camera movement learning, and a 3D geometry-aware module that improves execution robustness under dynamic viewpoints. We also present ActiveManip-Bench, the first benchmark for evaluating active manipulation beyond fixed-view settings. Extensive experiments in both simulation and real-world environments show that SaPaVe outperforms recent vision-language-action models such as GR00T N1 and (π_0), achieving up to 31.25\% higher success rates in real-world tasks. These results show that tightly coupled perception and execution, when trained with decoupled yet coordinated strategies, enable efficient and generalizable active manipulation. Project page: https://lmzpai.github.io/SaPaVe