HapticCap: A Multimodal Dataset and Task for Understanding User Experience of Vibration Haptic Signals

📄 arXiv: 2507.13318v1 📥 PDF

作者: Guimin Hu, Daniel Hershcovich, Hasti Seifi

分类: cs.CL

发布日期: 2025-07-17


💡 一句话要点

提出HapticCap数据集和触觉-文本检索任务,用于理解振动触觉信号的用户体验。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 触觉信号 用户体验 多模态数据集 触觉字幕检索 对比学习

📋 核心要点

  1. 现有触觉信号设计缺乏足够的用户体验数据,难以设计出与用户产生共鸣的振动信号。
  2. 构建了HapticCap数据集,包含大量人工标注的触觉-文本对,用于描述振动信号的感官、情感和联想属性。
  3. 提出了触觉字幕检索任务,并使用监督对比学习框架,结合文本和音频模型,取得了较好的检索效果。

📝 摘要(中文)

触觉信号,从智能手机振动到虚拟现实触觉反馈,可以有效地传递信息并增强真实感,但设计能够与用户产生有意义共鸣的信号仍然具有挑战性。为了促进这一点,我们引入了一个多模态数据集和任务,即匹配用户描述与振动触觉信号,并强调了两个主要挑战:(1)缺乏带有文本描述的大型触觉振动数据集,因为收集触觉描述非常耗时;(2)现有任务和模型在文本中描述振动信号的能力有限。为了推进该领域,我们创建了HapticCap,这是第一个完全人工标注的触觉字幕数据集,包含92,070个触觉-文本对,用于用户对振动的感官、情感和联想属性的描述。基于HapticCap,我们提出了触觉字幕检索任务,并展示了来自监督对比学习框架的该任务的结果,该框架将特定类别中的文本表示和振动结合在一起。总的来说,语言模型T5和音频模型AST的结合在触觉字幕检索任务中产生了最佳性能,尤其是在针对每个描述类别单独训练时。

🔬 方法详解

问题定义:论文旨在解决如何更好地理解和建模用户对振动触觉信号的感知和体验的问题。现有方法缺乏足够的数据支持,难以将振动信号与用户的感官、情感和联想联系起来,导致触觉信号设计缺乏用户共鸣。

核心思路:论文的核心思路是通过构建一个大规模的、人工标注的触觉-文本数据集HapticCap,来学习振动信号和用户描述之间的对应关系。通过这个数据集,可以训练模型来理解振动信号的语义,并将其与用户的体验联系起来。

技术框架:整体框架包含数据集构建和触觉字幕检索任务两个主要部分。首先,构建HapticCap数据集,包含振动信号和对应的文本描述。然后,基于HapticCap数据集,提出触觉字幕检索任务,即给定一个振动信号,检索与之对应的文本描述,或者反之。使用监督对比学习框架,将文本和音频特征映射到同一个嵌入空间,使得相似的振动信号和文本描述在嵌入空间中距离更近。

关键创新:论文的关键创新在于构建了第一个完全人工标注的触觉字幕数据集HapticCap,为触觉信号理解和用户体验建模提供了重要的数据基础。此外,论文还提出了触觉字幕检索任务,并验证了使用对比学习框架结合语言模型和音频模型可以有效地解决该任务。

关键设计:在数据集构建方面,论文收集了92,070个触觉-文本对,涵盖了振动信号的感官、情感和联想属性。在模型训练方面,使用了预训练的语言模型T5和音频模型AST,并针对每个描述类别(感官、情感、联想)分别进行训练,以提高模型的性能。损失函数使用了对比损失,旨在拉近相似样本在嵌入空间的距离,推开不相似样本的距离。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,结合语言模型T5和音频模型AST在触觉字幕检索任务中表现最佳,尤其是在针对每个描述类别单独训练时。这表明,针对特定属性(如感官、情感、联想)进行专门训练可以提高模型的性能。该方法在触觉字幕检索任务上取得了显著的成果,为后续研究奠定了基础。

🎯 应用场景

该研究成果可应用于智能手机、虚拟现实、游戏等领域,用于设计更具表现力和用户友好的触觉反馈。例如,可以根据用户的情绪状态,提供不同的振动模式;或者在VR游戏中,根据场景提供更真实的触觉体验。未来的研究可以探索如何将触觉信号与其他模态信息(如视觉、听觉)结合,以提供更丰富的用户体验。

📄 摘要(原文)

Haptic signals, from smartphone vibrations to virtual reality touch feedback, can effectively convey information and enhance realism, but designing signals that resonate meaningfully with users is challenging. To facilitate this, we introduce a multimodal dataset and task, of matching user descriptions to vibration haptic signals, and highlight two primary challenges: (1) lack of large haptic vibration datasets annotated with textual descriptions as collecting haptic descriptions is time-consuming, and (2) limited capability of existing tasks and models to describe vibration signals in text. To advance this area, we create HapticCap, the first fully human-annotated haptic-captioned dataset, containing 92,070 haptic-text pairs for user descriptions of sensory, emotional, and associative attributes of vibrations. Based on HapticCap, we propose the haptic-caption retrieval task and present the results of this task from a supervised contrastive learning framework that brings together text representations within specific categories and vibrations. Overall, the combination of language model T5 and audio model AST yields the best performance in the haptic-caption retrieval task, especially when separately trained for each description category.