THETA: Triangulated Hand-State Estimation for Teleoperation and Automation in Robotic Hand Control

📄 arXiv: 2601.07768v1 📥 PDF

作者: Alex Huang, Akshay Karthik

分类: cs.RO

发布日期: 2026-01-12

备注: The 11th International Conference on Engineering and Emerging Technologies (ICEET) 2025


💡 一句话要点

提出基于三角定位的手部姿态估计方法THETA,用于低成本机器人手遥操作与自动化。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 手部姿态估计 三角定位 机器人手遥操作 深度学习 计算机视觉

📋 核心要点

  1. 现有机器人手遥操作依赖昂贵的深度相机和传感器手套来估计手部关节位置,成本高昂限制了其应用。
  2. 论文提出THETA,利用三个网络摄像头进行三角定位跟踪,近似人类手指的相对关节角度,降低了成本。
  3. 实验表明,THETA在手势分类上取得了高精度、高召回率和优秀的F1分数,并成功应用于机器人手控制。

📝 摘要(中文)

本研究提出了一种新颖且经济高效的方法THETA,利用三个网络摄像头进行基于三角定位的跟踪,以近似人类手指的相对关节角度(theta),从而解决机器人手遥操作中深度相机和传感器手套成本高昂的问题。同时,引入了改进的DexHand机器人手,展示了THETA的实时应用。通过三个以120度间隔排列的640x480p网络摄像头,收集了包含40种不同手势的数据集,生成超过48,000张RGB图像。手动测量MCP、PIP和DIP手指关节的中点,确定关节角度。使用带有ResNet-50骨干的DeepLabV3分割模型处理捕获的RGB帧,用于多尺度手部分割。分割后的图像经过HSV过滤,并输入到THETA的架构中,该架构由基于MobileNetV2的CNN分类器组成,该分类器针对分层空间特征提取和编码多视角手部表示的9通道输入张量进行了优化。该分类模型将分割后的手部视图映射到离散的关节角度,实现了97.18%的准确率,98.72%的召回率,0.9274的F1分数和0.8906的精确率。在实时推理中,THETA同时捕获帧,分割手部区域,对其进行过滤,并编译一个9通道张量用于分类。关节角度预测通过串口传递到Arduino,使DexHand能够复制手部运动。未来的研究将增加数据集的多样性,整合腕部跟踪,并应用OpenAI-Vision等计算机视觉技术。THETA有望为医疗、语言和制造应用提供经济高效、用户友好的遥操作。

🔬 方法详解

问题定义:论文旨在解决机器人手遥操作中,依赖昂贵的深度相机和传感器手套进行手部姿态估计的问题。现有方法成本高昂,限制了机器人手遥操作的广泛应用。

核心思路:论文的核心思路是利用三个低成本的网络摄像头,通过三角定位的方法来估计手部关节角度。通过多视角的图像信息,可以更准确地推断出手部姿态,从而替代昂贵的深度相机和传感器手套。

技术框架:THETA的整体架构包括以下几个主要阶段:1) 数据采集:使用三个网络摄像头采集多视角的手部图像数据。2) 手部分割:使用DeepLabV3分割模型对图像进行手部分割。3) 特征提取:使用基于MobileNetV2的CNN分类器提取手部特征。4) 关节角度预测:将提取的特征映射到离散的关节角度。5) 机器人手控制:将预测的关节角度通过串口传递给Arduino,控制DexHand机器人手。

关键创新:论文最重要的技术创新点在于使用三角定位的方法,结合深度学习模型,实现了低成本、高精度的手部姿态估计。与现有方法相比,THETA无需昂贵的深度相机和传感器手套,降低了成本,同时保持了较高的精度。

关键设计:THETA的关键设计包括:1) 使用三个以120度间隔排列的网络摄像头,提供多视角的图像信息。2) 使用DeepLabV3分割模型进行手部分割,提取手部区域。3) 使用基于MobileNetV2的CNN分类器进行特征提取,该分类器针对分层空间特征提取和编码多视角手部表示的9通道输入张量进行了优化。4) 数据集包含40种不同的手势,用于训练和评估模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

THETA在手势分类任务中取得了显著的成果,达到了97.18%的准确率,98.72%的召回率,0.9274的F1分数和0.8906的精确率。这些结果表明,THETA能够准确地估计手部姿态,并成功应用于机器人手控制。与依赖昂贵设备的方法相比,THETA在成本效益方面具有显著优势。

🎯 应用场景

THETA具有广泛的应用前景,包括医疗康复、手语识别、远程操作和自动化制造等领域。通过低成本的手部姿态估计,可以实现更便捷、更经济的机器人手控制,从而提高生产效率和改善用户体验。未来,THETA有望应用于虚拟现实、增强现实等领域,实现更自然的人机交互。

📄 摘要(原文)

The teleoperation of robotic hands is limited by the high costs of depth cameras and sensor gloves, commonly used to estimate hand relative joint positions (XYZ). We present a novel, cost-effective approach using three webcams for triangulation-based tracking to approximate relative joint angles (theta) of human fingers. We also introduce a modified DexHand, a low-cost robotic hand from TheRobotStudio, to demonstrate THETA's real-time application. Data collection involved 40 distinct hand gestures using three 640x480p webcams arranged at 120-degree intervals, generating over 48,000 RGB images. Joint angles were manually determined by measuring midpoints of the MCP, PIP, and DIP finger joints. Captured RGB frames were processed using a DeepLabV3 segmentation model with a ResNet-50 backbone for multi-scale hand segmentation. The segmented images were then HSV-filtered and fed into THETA's architecture, consisting of a MobileNetV2-based CNN classifier optimized for hierarchical spatial feature extraction and a 9-channel input tensor encoding multi-perspective hand representations. The classification model maps segmented hand views into discrete joint angles, achieving 97.18% accuracy, 98.72% recall, F1 Score of 0.9274, and a precision of 0.8906. In real-time inference, THETA captures simultaneous frames, segments hand regions, filters them, and compiles a 9-channel tensor for classification. Joint-angle predictions are relayed via serial to an Arduino, enabling the DexHand to replicate hand movements. Future research will increase dataset diversity, integrate wrist tracking, and apply computer vision techniques such as OpenAI-Vision. THETA potentially ensures cost-effective, user-friendly teleoperation for medical, linguistic, and manufacturing applications.