High-Performance Vision-Based Tactile Sensing Enhanced by Microstructures and Lightweight CNN

📄 arXiv: 2412.20758v3 📥 PDF

作者: Mayue Shi, Yongqi Zhang, Xiaotong Guo, Eric M. Yeatman

分类: cs.RO, cs.HC

发布日期: 2024-12-30 (更新: 2025-04-03)

备注: 41 pages, 28 figures, 2 tables; rearranged figures; updated supplymentary information


💡 一句话要点

提出基于微结构和轻量级CNN的高性能视觉触觉传感方案,提升灵敏度和空间分辨率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉触觉传感 微结构 轻量级CNN 软机器人 人机交互

📋 核心要点

  1. 现有视觉触觉传感器在灵敏度、空间分辨率以及深度学习图像处理的高计算需求方面存在局限性。
  2. 该论文提出一种基于微结构的视觉触觉传感器,通过微加工沟槽放大形变视觉效果,并结合轻量级CNN进行高效图像处理。
  3. 实验结果表明,该传感器能够有效检测微小力,实现毫米级空间分辨率,并具有良好的抗干扰性和集成性。

📝 摘要(中文)

本文提出了一种结合新型微结构传感器设计和高效图像处理的综合方法,旨在提升视觉触觉传感器的性能并降低计算负担。该传感器采用微加工沟槽表面,无需传统跟踪标记,通过调制光传输来放大对施加力的响应。放大的图像特征通过超轻量级卷积神经网络提取,从而高精度地推断接触位置、位移和施加力。理论分析表明,微沟槽显著增强了形状畸变的视觉效果。该传感器系统仅使用商用网络摄像头,即可有效检测低于5 mN的力,并实现毫米级的单点空间分辨率。使用仅包含一个卷积层的模型,实现了低于0.05 mm的平均绝对误差。其柔软的传感器主体使其能够与软机器人无缝集成,并且对电气串扰和干扰的免疫性保证了在复杂人机环境中的可靠性。

🔬 方法详解

问题定义:现有视觉触觉传感器在灵敏度、空间分辨率和计算效率方面存在瓶颈。传统方法依赖复杂的图像处理算法或高分辨率相机,增加了成本和计算负担。此外,如何在保证性能的同时,实现与软机器人的集成也是一个挑战。

核心思路:该论文的核心思路是通过在传感器表面引入微结构(微沟槽),来放大形变产生的视觉效果。这种设计使得即使是很小的力也能引起显著的图像变化,从而提高灵敏度。同时,利用轻量级CNN提取这些放大的特征,降低了计算复杂度。

技术框架:该视觉触觉传感系统主要包含以下几个模块:1) 带有微结构的弹性体传感器;2) 光源;3) 商用网络摄像头;4) 轻量级卷积神经网络。当物体接触传感器表面时,微结构会发生形变,改变光线的传输。摄像头捕捉这些变化,然后输入到轻量级CNN中进行处理,最终输出接触位置、位移和施加力等信息。

关键创新:该论文的关键创新在于将微结构设计与轻量级CNN相结合。微结构放大了形变的视觉效果,使得可以使用简单的图像处理算法和低分辨率相机。轻量级CNN则在保证精度的前提下,显著降低了计算复杂度,使其更适合实时应用。与传统方法相比,该方法无需复杂的跟踪标记,简化了传感器设计和制造过程。

关键设计:微沟槽的几何参数(如深度、宽度、间距)是关键设计参数,需要根据弹性体的材料特性和目标灵敏度进行优化。轻量级CNN采用单层卷积结构,减少了参数数量和计算量。损失函数采用均方误差(MSE),用于回归接触位置、位移和施加力。实验中,作者使用商用网络摄像头,并对传感器进行了校准,以消除相机畸变的影响。

📊 实验亮点

该传感器系统仅使用商用网络摄像头,即可有效检测低于5 mN的力,并实现毫米级的单点空间分辨率。使用仅包含一个卷积层的模型,实现了低于0.05 mm的平均绝对误差。这些结果表明,该方法在灵敏度、空间分辨率和计算效率方面都具有显著优势。

🎯 应用场景

该研究成果可应用于软机器人、人机交互、医疗设备等领域。例如,在软机器人中,该传感器可以提供触觉反馈,使其能够更安全、更精确地与环境进行交互。在医疗领域,该传感器可用于开发新型触觉反馈手术机器人,提高手术的精确性和安全性。此外,该技术还可用于开发新型人机交互界面,例如触觉屏幕和虚拟现实设备。

📄 摘要(原文)

Tactile sensing is critical in advanced interactive systems by emulating the human sense of touch to detect stimuli. Vision-based tactile sensors are promising for providing multimodal capabilities and high robustness, yet existing technologies still have limitations in sensitivity, spatial resolution, and high computational demands of deep learning-based image processing. This paper presents a comprehensive approach combining a novel microstructure-based sensor design and efficient image processing, demonstrating that carefully engineered microstructures can significantly enhance performance while reducing computational load. Without traditional tracking markers, our sensor incorporates an surface with micromachined trenches, as an example of microstructures, which modulate light transmission and amplify the response to applied force. The amplified image features can be extracted by a ultra lightweight convolutional neural network to accurately inferring contact location, displacement, and applied force with high precision. Through theoretical analysis, we demonstrated that the micro trenches significantly amplified the visual effects of shape distortion. Using only a commercial webcam, the sensor system effectively detected forces below 5 mN, and achieved a millimetre-level single-point spatial resolution. Using a model with only one convolutional layer, a mean absolute error below 0.05 mm was achieved. Its soft sensor body allows seamless integration with soft robots, while its immunity to electrical crosstalk and interference guarantees reliability in complex human-machine environments.