Exploring Human-AI Perception Alignment in Sensory Experiences: Do LLMs Understand Textile Hand?

📄 arXiv: 2406.06587v1 📥 PDF

作者: Shu Zhong, Elia Gatti, Youngjun Cho, Marianna Obrist

分类: cs.CL, cs.AI, cs.HC

发布日期: 2024-06-05


💡 一句话要点

探索人机感知对齐:大型语言模型能否理解纺织品手感?

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 大型语言模型 触觉感知 纺织品手感 感知对齐

📋 核心要点

  1. 现有方法在人机交互中忽略了触觉等感知模态的对齐,导致LLM难以理解人类的触觉体验。
  2. 论文提出一种“猜测纺织品”互动,通过让LLM根据人类对纺织品手感的描述来识别纺织品,以此评估人机触觉感知对齐程度。
  3. 实验结果表明,LLM在理解某些纺织品(如丝绸缎)的手感方面表现较好,但在其他纺织品(如棉质牛仔布)方面表现较差,存在显著差异。

📝 摘要(中文)

对齐大型语言模型(LLM)的行为与人类意图对于未来人工智能至关重要。其中,感知对齐是一个重要但经常被忽视的方面。与视觉等其他感官模式相比,触觉等感知模式更加多面和细致。本研究通过“纺织品手感”任务,调查LLM在多大程度上与人类触觉体验对齐。我们创建了一个“猜测纺织品”互动,参与者拿到两块纺织品样本(目标和参考),在不看到它们的情况下,向LLM描述它们之间的差异。LLM使用这些描述,通过评估其高维嵌入空间内的相似性来尝试识别目标纺织品。结果表明,存在一定程度的感知对齐,但不同纺织品样本之间的差异很大。例如,LLM对丝绸缎的预测与人类感知对齐较好,但对棉质牛仔布则不然。此外,参与者认为LLM的预测与他们的纺织品体验并不完全匹配。这只是对触觉感知对齐的初步探索,以纺织品手感为例。我们讨论了这种对齐差异的可能来源,以及更好的人机感知对齐如何使未来的日常任务受益。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在理解和模拟人类触觉感知方面的不足,特别是针对纺织品手感这一细分领域。现有方法主要集中在视觉和听觉等模态,忽略了触觉这种更为主观和复杂的感知方式,导致LLM在处理涉及触觉体验的任务时表现不佳。

核心思路:论文的核心思路是通过构建一个人类与LLM交互的实验框架,让人类描述纺织品的手感差异,然后让LLM根据这些描述来识别纺织品。这种方法旨在评估LLM是否能够理解并模拟人类的触觉感知,从而实现人机感知对齐。

技术框架:整体框架包含以下几个主要阶段:1) 招募参与者并提供目标和参考纺织品样本;2) 参与者在不看到纺织品的情况下,通过触摸感知它们之间的差异,并用自然语言描述这些差异;3) 将参与者的描述输入到LLM中;4) LLM根据描述,在其高维嵌入空间中搜索与目标纺织品最相似的样本;5) 评估LLM的预测结果与实际目标纺织品是否一致,并分析人机感知对齐程度。

关键创新:论文的关键创新在于将人机感知对齐问题引入到触觉领域,并设计了一个具体的实验框架来评估LLM在理解纺织品手感方面的能力。与以往主要关注视觉和听觉感知的研究不同,该研究关注触觉这一更为复杂和主观的感知模态,为未来人机交互研究开辟了新的方向。

关键设计:实验中,选取了多种具有不同手感特征的纺织品样本,例如丝绸缎、棉质牛仔布等。参与者被要求尽可能详细地描述目标纺织品与参考纺织品之间的手感差异,例如柔软度、粗糙度、光滑度等。LLM使用预训练的文本嵌入模型,将参与者的描述转换为高维向量表示,并通过计算向量之间的相似度来识别目标纺织品。论文还分析了不同纺织品样本之间的人机感知对齐程度差异,并探讨了可能的原因。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在理解某些纺织品的手感方面表现较好,例如丝绸缎,但在其他纺织品方面表现较差,例如棉质牛仔布。这表明LLM在触觉感知方面存在一定的局限性,不同纺织品之间的人机感知对齐程度存在显著差异。此外,参与者认为LLM的预测与他们的纺织品体验并不完全匹配,表明人机触觉感知对齐仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于多个领域,例如智能服装推荐、虚拟购物体验、以及辅助残疾人感知环境等。通过提高LLM对触觉感知的理解能力,可以开发出更加智能和人性化的产品和服务,提升用户体验,并为特定人群提供更好的辅助功能。未来,该研究还可以扩展到其他触觉相关的应用场景,例如机器人触觉感知、虚拟现实触觉反馈等。

📄 摘要(原文)

Aligning large language models (LLMs) behaviour with human intent is critical for future AI. An important yet often overlooked aspect of this alignment is the perceptual alignment. Perceptual modalities like touch are more multifaceted and nuanced compared to other sensory modalities such as vision. This work investigates how well LLMs align with human touch experiences using the "textile hand" task. We created a "Guess What Textile" interaction in which participants were given two textile samples -- a target and a reference -- to handle. Without seeing them, participants described the differences between them to the LLM. Using these descriptions, the LLM attempted to identify the target textile by assessing similarity within its high-dimensional embedding space. Our results suggest that a degree of perceptual alignment exists, however varies significantly among different textile samples. For example, LLM predictions are well aligned for silk satin, but not for cotton denim. Moreover, participants didn't perceive their textile experiences closely matched by the LLM predictions. This is only the first exploration into perceptual alignment around touch, exemplified through textile hand. We discuss possible sources of this alignment variance, and how better human-AI perceptual alignment can benefit future everyday tasks.