Learning Visuotactile Estimation and Control for Non-prehensile Manipulation under Occlusions

作者: Juan Del Aguila Ferrandis, João Moura, Sethu Vijayakumar

分类: cs.RO, cs.LG

发布日期: 2024-12-17

备注: Conference on Robot Learning (CoRL 2024)

💡 一句话要点

提出一种基于视觉触觉的非抓取操作学习方法，解决遮挡下的操作问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 非抓取操作 视觉触觉融合 贝叶斯深度学习 强化学习 遮挡处理

📋 核心要点

非抓取操作在复杂环境中至关重要，但现有方法难以应对物体遮挡和接触不确定性。
论文提出一种基于视觉触觉融合的贝叶斯深度学习框架，用于状态估计和不确定性建模。
通过强化学习训练不确定性感知控制策略，并在真实机器人上验证了遮挡下的操作性能。

📝 摘要（中文）

非抓取操作对于灵巧机器人在接触丰富的环境中至关重要，但也面临着欠驱动、混合动力学和摩擦不确定性等诸多挑战。此外，在接触不确定性和物体运动独立于机器人的情况下，物体遮挡成为一个关键问题，而之前的文献未能解决这个问题。本文提出了一种学习视觉触觉状态估计器和不确定性感知控制策略的方法，用于遮挡下的非抓取操作，通过利用在模拟中训练的特权策略中的多样化交互数据。我们在贝叶斯深度学习框架内构建估计器，以建模其不确定性，然后通过将预先学习的估计器纳入强化学习（RL）循环来训练不确定性感知控制策略，这两者都显着提高了估计器和策略的性能。因此，与先前依赖复杂外部感知设置的非抓取研究不同，我们的方法成功地处理了遮挡，并在通过sim-to-real迁移到带有简单板载摄像头的机器人硬件后实现了这一目标。

🔬 方法详解

问题定义：论文旨在解决非抓取操作中，由于物体遮挡和接触不确定性导致的状态估计和控制问题。现有方法通常依赖于复杂的外部感知系统，难以处理遮挡情况，并且忽略了状态估计的不确定性，导致控制策略的鲁棒性较差。

核心思路：论文的核心思路是利用视觉和触觉信息融合，构建一个能够估计物体状态和不确定性的贝叶斯深度学习模型。通过在模拟环境中训练特权策略，生成多样化的交互数据，然后利用这些数据训练状态估计器和不确定性感知的控制策略。这种方法能够有效地处理遮挡，并提高控制策略的鲁棒性。

技术框架：整体框架包含两个主要模块：视觉触觉状态估计器和不确定性感知控制策略。首先，利用贝叶斯深度学习框架构建状态估计器，该估计器以视觉和触觉数据作为输入，输出物体状态的估计值和不确定性。然后，将该估计器集成到强化学习循环中，训练不确定性感知的控制策略。控制策略的目标是最大化累积奖励，同时考虑状态估计的不确定性。

关键创新：论文的关键创新在于将贝叶斯深度学习用于视觉触觉状态估计，并将其与强化学习相结合，训练不确定性感知的控制策略。这种方法能够有效地处理遮挡，并提高控制策略的鲁棒性。与现有方法相比，该方法不需要复杂的外部感知系统，只需要一个简单的板载摄像头。

关键设计：状态估计器采用贝叶斯神经网络，通过变分推理学习状态的后验分布。损失函数包括重构损失和KL散度，用于约束后验分布与先验分布的差异。控制策略采用深度确定性策略梯度（DDPG）算法，奖励函数设计为鼓励物体移动到目标位置，并惩罚过大的控制力。在训练过程中，采用sim-to-real迁移技术，将模拟环境中训练的策略迁移到真实机器人上。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在遮挡条件下能够有效地估计物体状态，并实现鲁棒的非抓取操作。与基线方法相比，该方法在状态估计精度和控制策略性能方面均有显著提升。通过sim-to-real迁移，该方法成功地在真实机器人上实现了遮挡下的操作任务，验证了其可行性和有效性。

🎯 应用场景

该研究成果可应用于各种非抓取操作场景，例如在拥挤或遮挡的环境中进行物体整理、分拣和装配。在仓储物流、智能制造、医疗康复等领域具有广泛的应用前景。未来可进一步扩展到更复杂的任务，例如多物体操作和动态环境下的操作。

📄 摘要（原文）

Manipulation without grasping, known as non-prehensile manipulation, is essential for dexterous robots in contact-rich environments, but presents many challenges relating with underactuation, hybrid-dynamics, and frictional uncertainty. Additionally, object occlusions in a scenario of contact uncertainty and where the motion of the object evolves independently from the robot becomes a critical problem, which previous literature fails to address. We present a method for learning visuotactile state estimators and uncertainty-aware control policies for non-prehensile manipulation under occlusions, by leveraging diverse interaction data from privileged policies trained in simulation. We formulate the estimator within a Bayesian deep learning framework, to model its uncertainty, and then train uncertainty-aware control policies by incorporating the pre-learned estimator into the reinforcement learning (RL) loop, both of which lead to significantly improved estimator and policy performance. Therefore, unlike prior non-prehensile research that relies on complex external perception set-ups, our method successfully handles occlusions after sim-to-real transfer to robotic hardware with a simple onboard camera. See our video: https://youtu.be/hW-C8i_HWgs.

Learning Visuotactile Estimation and Control for Non-prehensile Manipulation under Occlusions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理