Enhancing Physical Human-Robot Interaction: Recognizing Digits via Intrinsic Robot Tactile Sensing

📄 arXiv: 2504.00167v1 📥 PDF

作者: Teresa Sinico, Giovanni Boschetti, Pedro Neto

分类: cs.RO

发布日期: 2025-03-31

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

利用机器人内置触觉感知,实现物理人机交互中的手写数字识别

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 人机交互 触觉感知 机器人 深度学习 Bi-LSTM 数据增强 手写数字识别

📋 核心要点

  1. 现有pHRI系统依赖外部触觉传感器,增加了系统复杂性,限制了其应用范围。
  2. 利用协作机器人内置的扭矩传感器,感知用户在触摸板上手写的数字,无需额外硬件。
  3. Bi-LSTM网络结合数据增强,实现了94%的在线数字识别准确率,并在实际水果递送任务中验证。

📝 摘要(中文)

物理人机交互(pHRI)仍然是实现与机器人直观和安全交互的关键挑战。目前的进展通常依赖于外部触觉传感器作为接口,这增加了机器人系统的复杂性。本研究利用协作机器人的内在触觉感知能力,识别用户在安装于机器人末端执行器上的未配备传感器的触摸板上绘制的数字。我们提出了一个机器人关节扭矩信号数据集,以及相应的末端执行器(EEF)力和力矩,这些数据来自机器人每个关节的集成扭矩传感器,用户在触摸板上绘制手写数字(0-9)。pHRI-DIGI-TACT数据集是从不同的用户收集的,以捕捉手写的自然变化。为了提高分类的鲁棒性,我们开发了一种数据增强技术,以解决反向和旋转的数字输入。双向长短期记忆(Bi-LSTM)网络利用数据的时空特性,执行在线数字分类,在各种测试场景中,包括那些涉及未参与系统训练的用户,总体准确率为94%。该方法已在真实机器人上实现,用于水果递送任务,展示了其在日常生活中帮助个人的潜力。数据集和视频演示可在https://TS-Robotics.github.io/pHRI-DIGI/获取。

🔬 方法详解

问题定义:论文旨在解决物理人机交互中,如何利用机器人自身的感知能力,实现更自然、更便捷的交互方式的问题。现有方法依赖外部触觉传感器,增加了成本和复杂性,限制了机器人的灵活性和适用性。因此,需要一种无需额外硬件,仅利用机器人自身传感器就能实现有效交互的方法。

核心思路:论文的核心思路是利用协作机器人内置的关节扭矩传感器,感知用户在机器人末端执行器上绘制的手写数字。通过分析关节扭矩信号与末端执行器受力的关系,提取手写数字的特征,并使用机器学习方法进行识别。这种方法充分利用了机器人自身的感知能力,无需额外的外部传感器。

技术框架:整体框架包括数据采集、数据预处理、数据增强、模型训练和在线识别五个主要阶段。首先,通过用户在触摸板上手写数字,采集机器人关节扭矩信号和末端执行器力和力矩数据,构建pHRI-DIGI-TACT数据集。然后,对数据进行预处理,包括滤波、归一化等。为了提高模型的鲁棒性,采用数据增强技术,生成反向和旋转的数字样本。接着,使用Bi-LSTM网络对数据进行训练,学习手写数字的时空特征。最后,在实际机器人上进行在线识别测试,验证方法的有效性。

关键创新:论文的关键创新在于利用机器人内置的扭矩传感器进行触觉感知,无需外部传感器。此外,提出的数据增强技术,有效地提高了模型的鲁棒性,使其能够适应不同的用户和书写风格。Bi-LSTM网络的应用,能够充分利用手写数字的时空特征,提高识别准确率。

关键设计:数据集pHRI-DIGI-TACT包含来自不同用户的0-9手写数字数据,每个数字包含关节扭矩信号和末端执行器力和力矩数据。数据增强方法包括水平翻转和随机旋转。Bi-LSTM网络包含多层LSTM单元,能够捕捉序列数据的长期依赖关系。损失函数采用交叉熵损失函数,优化器采用Adam优化器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在各种测试场景中,包括那些涉及未参与系统训练的用户,总体数字识别准确率达到94%。在实际水果递送任务中,该方法能够准确识别用户的手写数字指令,并控制机器人完成相应的操作。这些结果验证了该方法的有效性和实用性。

🎯 应用场景

该研究成果可应用于各种人机协作场景,例如:在制造业中,工人可以通过手写数字指令控制机器人执行特定任务;在医疗领域,医生可以通过手写数字与机器人进行交互,完成手术辅助等工作;在家庭服务领域,用户可以通过手写数字控制机器人进行物品递送等操作。该技术具有广泛的应用前景,能够提高人机交互的效率和安全性。

📄 摘要(原文)

Physical human-robot interaction (pHRI) remains a key challenge for achieving intuitive and safe interaction with robots. Current advancements often rely on external tactile sensors as interface, which increase the complexity of robotic systems. In this study, we leverage the intrinsic tactile sensing capabilities of collaborative robots to recognize digits drawn by humans on an uninstrumented touchpad mounted to the robot's flange. We propose a dataset of robot joint torque signals along with corresponding end-effector (EEF) forces and moments, captured from the robot's integrated torque sensors in each joint, as users draw handwritten digits (0-9) on the touchpad. The pHRI-DIGI-TACT dataset was collected from different users to capture natural variations in handwriting. To enhance classification robustness, we developed a data augmentation technique to account for reversed and rotated digits inputs. A Bidirectional Long Short-Term Memory (Bi-LSTM) network, leveraging the spatiotemporal nature of the data, performs online digit classification with an overall accuracy of 94\% across various test scenarios, including those involving users who did not participate in training the system. This methodology is implemented on a real robot in a fruit delivery task, demonstrating its potential to assist individuals in everyday life. Dataset and video demonstrations are available at: https://TS-Robotics.github.io/pHRI-DIGI/.