Do You Need Proprioceptive States in Visuomotor Policies?
作者: Juntu Zhao, Wenbo Lu, Di Zhang, Yufeng Liu, Yushen Liang, Tianluo Zhang, Yifeng Cao, Junyuan Xie, Yingdong Hu, Shengjie Wang, Junliang Guo, Dequan Wang, Yang Gao
分类: cs.RO, cs.AI
发布日期: 2025-09-23 (更新: 2025-09-24)
备注: Project page: https://statefreepolicy.github.io
💡 一句话要点
提出State-free策略,解决模仿学习中机器人操作对本体感受状态的过度依赖问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)
关键词: 机器人操作 模仿学习 视觉运动策略 空间泛化 本体感受 深度学习 机器人控制
📋 核心要点
- 现有模仿学习方法过度依赖本体感受状态,导致机器人操作策略在空间泛化能力上表现不佳。
- State-free策略仅依赖视觉信息预测动作,避免了对本体感受状态的依赖,从而提升泛化能力。
- 实验表明,State-free策略在多种机器人任务中,显著提升了空间泛化能力和数据效率。
📝 摘要(中文)
基于模仿学习的视觉运动策略已广泛应用于机器人操作,通常视觉观测和本体感受状态被共同用于精确控制。然而,本研究发现这种常见做法导致策略过度依赖本体感受状态输入,造成对训练轨迹的过拟合,并导致较差的空间泛化能力。为此,我们提出State-free策略,移除本体感受状态输入,仅根据视觉观测预测动作。State-free策略构建在相对末端执行器动作空间中,并确保完整的任务相关视觉观测,这里由双广角腕部相机提供。实验结果表明,State-free策略比基于状态的策略实现了显著更强的空间泛化能力:在现实世界的任务中,如抓取放置、具有挑战性的衬衫折叠和复杂的全身操作,跨越多个机器人实体,平均成功率在高度泛化方面从0%提高到85%,在水平泛化方面从6%提高到64%。此外,它们还在数据效率和跨实体适应方面显示出优势,增强了它们在现实世界部署中的实用性。
🔬 方法详解
问题定义:现有基于模仿学习的机器人操作策略,通常同时使用视觉观测和本体感受状态进行控制。然而,这种做法会导致策略过度拟合训练数据中的本体感受状态,从而在新的空间环境中表现不佳,即空间泛化能力不足。现有方法难以平衡本体感受状态和视觉信息的重要性,导致策略的鲁棒性较差。
核心思路:论文的核心思路是移除本体感受状态的输入,仅依赖视觉信息来预测机器人的动作。作者认为,视觉信息包含了完成任务所需的全部信息,而本体感受状态可能会引入噪声和偏差,限制策略的泛化能力。通过完全依赖视觉信息,策略可以更好地学习到与任务相关的空间关系,从而提高泛化能力。
技术框架:State-free策略的整体框架包括以下几个关键部分:首先,使用双广角腕部相机获取丰富的视觉观测信息。其次,策略网络接收这些视觉信息作为输入,并预测相对末端执行器的动作。最后,将预测的动作发送给机器人执行器,完成相应的操作。整个过程没有使用任何本体感受状态的信息。
关键创新:该论文最重要的技术创新点在于提出了完全依赖视觉信息的State-free策略。与传统的基于状态的策略相比,State-free策略避免了对本体感受状态的依赖,从而提高了空间泛化能力。这种方法简化了策略的设计,并使其更易于部署到不同的机器人平台上。
关键设计:State-free策略的关键设计包括:1) 使用双广角腕部相机,提供全面的视觉信息;2) 在相对末端执行器动作空间中进行动作预测,简化了动作控制;3) 策略网络的设计需要能够有效地从视觉信息中提取任务相关的特征。具体的网络结构和损失函数等细节,论文中可能没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
State-free策略在真实世界的机器人任务中表现出色,例如抓取放置、衬衫折叠和全身操作。在高度泛化方面,成功率从0%提高到85%,在水平泛化方面,成功率从6%提高到64%。这些结果表明,State-free策略在空间泛化能力方面具有显著优势,并且在数据效率和跨实体适应方面也表现出良好的性能。
🎯 应用场景
该研究成果可广泛应用于各种机器人操作任务,例如工业自动化、家庭服务机器人、医疗机器人等。通过提高机器人的空间泛化能力,可以使其更好地适应不同的工作环境和任务需求,从而提高工作效率和降低成本。此外,该方法还可以促进机器人技术的普及和应用,使其能够更好地服务于人类社会。
📄 摘要(原文)
Imitation-learning-based visuomotor policies have been widely used in robot manipulation, where both visual observations and proprioceptive states are typically adopted together for precise control. However, in this study, we find that this common practice makes the policy overly reliant on the proprioceptive state input, which causes overfitting to the training trajectories and results in poor spatial generalization. On the contrary, we propose the State-free Policy, removing the proprioceptive state input and predicting actions only conditioned on visual observations. The State-free Policy is built in the relative end-effector action space, and should ensure the full task-relevant visual observations, here provided by dual wide-angle wrist cameras. Empirical results demonstrate that the State-free policy achieves significantly stronger spatial generalization than the state-based policy: in real-world tasks such as pick-and-place, challenging shirt-folding, and complex whole-body manipulation, spanning multiple robot embodiments, the average success rate improves from 0% to 85% in height generalization and from 6% to 64% in horizontal generalization. Furthermore, they also show advantages in data efficiency and cross-embodiment adaptation, enhancing their practicality for real-world deployment. Discover more by visiting: https://statefreepolicy.github.io.