Focused Blind Switching Manipulation Based on Constrained and Regional Touch States of Multi-Fingered Hand Using Deep Learning
作者: Satoshi Funabashi, Atsumu Hiramoto, Naoya Chiba, Alexander Schmitz, Shardul Kulkarni, Tetsuya Ogata
分类: cs.RO
发布日期: 2025-03-10
💡 一句话要点
提出基于深度学习的约束触觉状态盲切换操作方法,用于灵巧手盖子开启任务
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 灵巧手操作 触觉信息 深度学习 运动切换 注意力机制
📋 核心要点
- 多指灵巧操作需要根据触觉信息调整运动,但高自由度多指和丰富触觉信息的切换仍是挑战。
- 提出一种带有触觉状态约束的损失函数和注意力机制,利用AE-LSTM网络实现触觉驱动的运动切换。
- 在瓶盖开启任务上,该方法在多种物体上实现了最佳成功率,并验证了模型对子任务特征和特定模态的关注。
📝 摘要(中文)
为了实现期望的抓取姿态(包括物体的位置和方向),需要根据当前的触觉状态进行多指运动。特别是在校正物体状态期间发生细微变化时,不仅本体感觉,而且来自整个手的触觉信息都可能是有益的。然而,切换具有高自由度的多指运动和丰富的触觉信息仍然具有挑战性。本研究提出了一种具有触觉状态约束的损失函数和一个注意力机制,用于根据触觉状态关注重要的模态。策略模型是AE-LSTM,由压缩丰富触觉信息的自编码器(AE)和根据触觉状态切换运动的长短期记忆网络(LSTM)组成。选择瓶盖开启运动作为目标任务,该任务由滑动物体和打开瓶盖的子任务组成。结果表明,所提出的方法在各种物体的实时瓶盖开启操作中取得了最佳的成功率。此外,我们可以确认所提出的模型获得了每个子任务的特征以及对特定模态的关注。
🔬 方法详解
问题定义:论文旨在解决多指灵巧手在执行复杂操作(如开瓶盖)时,如何有效地利用触觉信息进行运动切换的问题。现有方法难以处理高自由度多指运动和大量触觉信息,导致操作成功率低,泛化能力差。
核心思路:论文的核心思路是利用深度学习模型,学习触觉状态与运动之间的映射关系。通过引入触觉状态约束的损失函数和注意力机制,使模型能够关注重要的触觉模态,并根据触觉状态切换运动策略。
技术框架:整体框架包括三个主要部分:1) 使用自编码器(AE)压缩高维触觉信息;2) 使用长短期记忆网络(LSTM)根据触觉状态切换运动策略;3) 使用带有触觉状态约束的损失函数训练模型。AE-LSTM模型接收触觉信息作为输入,输出多指的运动控制指令。
关键创新:论文的关键创新在于:1) 提出了带有触觉状态约束的损失函数,鼓励模型学习符合物理规律的触觉状态;2) 引入注意力机制,使模型能够根据触觉状态关注重要的触觉模态,提高运动切换的效率和准确性。
关键设计:损失函数包含两部分:运动损失和触觉状态约束损失。触觉状态约束损失用于惩罚不符合物理规律的触觉状态。注意力机制通过学习权重,对不同的触觉模态进行加权,从而使模型能够关注重要的触觉信息。AE的结构和LSTM的隐藏层大小等参数需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的方法在实时瓶盖开启操作中取得了最佳的成功率,优于其他基线方法。通过可视化注意力权重,验证了模型能够根据子任务(如滑动和开启)关注特定的触觉模态。此外,实验还表明,该方法具有较好的泛化能力,能够在不同的物体上实现成功的瓶盖开启操作。
🎯 应用场景
该研究成果可应用于机器人灵巧操作领域,例如在工业自动化中,机器人可以利用灵巧手完成装配、抓取等复杂任务。在医疗领域,可以辅助医生进行手术操作。此外,该技术还可以应用于服务机器人,使其能够更好地与人类交互,完成各种日常任务。未来,该研究有望推动机器人智能水平的提升,使其能够更好地适应复杂环境。
📄 摘要(原文)
To achieve a desired grasping posture (including object position and orientation), multi-finger motions need to be conducted according to the the current touch state. Specifically, when subtle changes happen during correcting the object state, not only proprioception but also tactile information from the entire hand can be beneficial. However, switching motions with high-DOFs of multiple fingers and abundant tactile information is still challenging. In this study, we propose a loss function with constraints of touch states and an attention mechanism for focusing on important modalities depending on the touch states. The policy model is AE-LSTM which consists of Autoencoder (AE) which compresses abundant tactile information and Long Short-Term Memory (LSTM) which switches the motion depending on the touch states. Motion for cap-opening was chosen as a target task which consists of subtasks of sliding an object and opening its cap. As a result, the proposed method achieved the best success rates with a variety of objects for real time cap-opening manipulation. Furthermore, we could confirm that the proposed model acquired the features of each subtask and attention on specific modalities.