HapticVLM: VLM-Driven Texture Recognition Aimed at Intelligent Haptic Interaction

📄 arXiv: 2505.02569v1 📥 PDF

作者: Muhammad Haris Khan, Miguel Altamirano Cabrera, Dmitrii Iarchuk, Yara Mahmoud, Daria Trinitatova, Issatay Tokmurziyev, Dzmitry Tsetserukou

分类: cs.RO, cs.HC

发布日期: 2025-05-05

备注: Submitted to IEEE conf


💡 一句话要点

HapticVLM:面向智能触觉交互的VLM驱动纹理识别系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 触觉反馈 视觉-语言模型 多模态融合 材料识别 温度估计

📋 核心要点

  1. 现有触觉反馈系统缺乏对环境和物体材质的感知能力,导致触觉体验不够真实和自然。
  2. HapticVLM结合视觉-语言模型和卷积网络,从视觉信息中推断材质和温度,并生成相应的触觉反馈。
  3. 实验表明,HapticVLM在材料识别和温度估计方面都取得了较高的准确率,为多模态触觉交互提供了新的可能性。

📝 摘要(中文)

本文介绍了一种新型多模态系统HapticVLM,它集成了视觉-语言推理与深度卷积网络,以实现实时触觉反馈。HapticVLM利用基于ConvNeXt的材料识别模块生成鲁棒的视觉嵌入,从而准确识别物体材料。同时,一个先进的视觉-语言模型(Qwen2-VL-2B-Instruct)从环境线索中推断环境温度。该系统通过扬声器传递振动触觉反馈,并通过Peltier模块传递热线索,从而综合触觉感觉,弥合了视觉感知和触觉体验之间的差距。实验评估表明,在五种不同的听觉-触觉模式中,平均识别准确率为84.67%,并且基于容差评估方法,在15种场景中,误差范围为8°C时,温度估计准确率为86.7%。尽管前景广阔,但目前的研究受到少量突出模式和适度参与者数量的限制。未来的工作将侧重于扩大触觉模式的范围,并增加用户研究,以进一步改进和验证系统的性能。总的来说,HapticVLM代表了在虚拟现实和辅助技术中,实现上下文感知、多模态触觉交互的重要一步。

🔬 方法详解

问题定义:现有触觉反馈系统主要依赖预定义的触觉模式,缺乏对环境上下文的感知能力。例如,无法根据物体的材质(如木头、金属)或环境温度(如寒冷、炎热)来调整触觉反馈,导致用户体验不佳。因此,需要一种能够理解视觉信息并生成相应触觉反馈的系统。

核心思路:HapticVLM的核心思路是利用视觉-语言模型(VLM)的强大推理能力,结合卷积神经网络(CNN)的图像特征提取能力,从视觉信息中推断出物体的材质和环境温度。然后,根据这些信息生成相应的触觉反馈,包括振动和温度变化。这种方法将视觉感知与触觉体验联系起来,从而提供更真实和自然的触觉交互。

技术框架:HapticVLM系统主要包含三个模块:1) 基于ConvNeXt的材料识别模块,用于提取图像的视觉特征并识别物体材质;2) 基于Qwen2-VL-2B-Instruct的视觉-语言模型,用于根据环境线索推断环境温度;3) 触觉反馈模块,通过扬声器产生振动触觉,通过Peltier模块控制温度变化。整个流程是:输入图像 -> ConvNeXt提取特征 -> 材料识别 -> VLM推断温度 -> 触觉反馈生成。

关键创新:HapticVLM的关键创新在于将视觉-语言模型引入到触觉反馈系统中。传统的触觉反馈系统主要依赖预定义的触觉模式,而HapticVLM能够根据视觉信息动态生成触觉反馈。此外,HapticVLM还结合了卷积神经网络和视觉-语言模型,充分利用了两种模型的优势。

关键设计:材料识别模块采用ConvNeXt作为主干网络,并使用交叉熵损失函数进行训练。视觉-语言模型采用Qwen2-VL-2B-Instruct,并使用prompt engineering来指导模型进行温度推断。触觉反馈模块使用扬声器产生不同频率和幅度的振动,使用Peltier模块控制温度变化,并通过PID控制器实现精确的温度控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HapticVLM在材料识别方面取得了84.67%的平均准确率,在温度估计方面取得了86.7%的准确率(容差为8°C)。这些结果表明,HapticVLM能够有效地从视觉信息中推断出物体材质和环境温度,并生成相应的触觉反馈。虽然目前的研究受到数据集大小和参与者数量的限制,但这些结果仍然具有重要的意义。

🎯 应用场景

HapticVLM在虚拟现实、远程操作、辅助技术等领域具有广泛的应用前景。在虚拟现实中,它可以提供更真实的触觉体验,增强沉浸感。在远程操作中,它可以让操作者感受到远程环境的触觉信息,提高操作的精确性和效率。在辅助技术中,它可以帮助视力障碍者通过触觉感知环境信息,提高生活质量。

📄 摘要(原文)

This paper introduces HapticVLM, a novel multimodal system that integrates vision-language reasoning with deep convolutional networks to enable real-time haptic feedback. HapticVLM leverages a ConvNeXt-based material recognition module to generate robust visual embeddings for accurate identification of object materials, while a state-of-the-art Vision-Language Model (Qwen2-VL-2B-Instruct) infers ambient temperature from environmental cues. The system synthesizes tactile sensations by delivering vibrotactile feedback through speakers and thermal cues via a Peltier module, thereby bridging the gap between visual perception and tactile experience. Experimental evaluations demonstrate an average recognition accuracy of 84.67% across five distinct auditory-tactile patterns and a temperature estimation accuracy of 86.7% based on a tolerance-based evaluation method with an 8°C margin of error across 15 scenarios. Although promising, the current study is limited by the use of a small set of prominent patterns and a modest participant pool. Future work will focus on expanding the range of tactile patterns and increasing user studies to further refine and validate the system's performance. Overall, HapticVLM presents a significant step toward context-aware, multimodal haptic interaction with potential applications in virtual reality, and assistive technologies.