Sniff AI: Is My 'Spicy' Your 'Spicy'? Exploring LLM's Perceptual Alignment with Human Smell Experiences

📄 arXiv: 2411.06950v1 📥 PDF

作者: Shu Zhong, Zetao Zhou, Christopher Dawes, Giada Brianz, Marianna Obrist

分类: cs.CL, cs.HC

发布日期: 2024-11-11


💡 一句话要点

Sniff AI:探索大语言模型与人类嗅觉体验的感知对齐程度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 嗅觉感知 大语言模型 人机交互 感知对齐 多感官体验

📋 核心要点

  1. 现有AI系统在感知对齐方面存在不足,尤其是在嗅觉等复杂感官领域,难以准确理解人类对气味的描述。
  2. 论文设计了一个交互式“嗅闻并描述”系统,利用大语言模型根据用户描述猜测气味,以此评估AI的嗅觉感知能力。
  3. 实验结果表明,大语言模型在嗅觉感知上存在局限性,对某些气味存在偏见,难以准确识别所有气味。

📝 摘要(中文)

将人工智能与人类意图对齐至关重要,但感知对齐——即AI如何解释我们所见、所听或所闻——仍未得到充分探索。本研究侧重于嗅觉,即人类的嗅觉体验。我们进行了一项用户研究,招募了40名参与者,以调查AI在多大程度上能够理解人类对气味的描述。参与者执行“嗅闻并描述”的交互式任务,我们设计的AI系统尝试根据参与者的描述来猜测他们正在体验的气味。这些任务评估了大语言模型(LLM)的上下文理解能力以及气味关系在其内部状态(高维嵌入空间)中的表示。我们使用定量和定性方法来评估AI系统的性能。结果表明感知对齐程度有限,AI对某些气味(如柠檬和薄荷)存在偏差,并且持续无法识别其他气味(如迷迭香)。我们结合人机对齐的进展讨论了这些发现,强调了通过多感官体验集成来增强人机交互系统的局限性和机遇。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLM)在理解和解释人类嗅觉体验方面的不足。现有方法主要集中在视觉和听觉感知对齐,而忽略了嗅觉这一重要感官。人类对气味的描述具有主观性和情境性,这使得AI难以准确理解和表示气味之间的关系。因此,如何评估和提升LLM在嗅觉感知方面的能力是本研究的核心问题。

核心思路:论文的核心思路是通过构建一个交互式系统,让人类参与者描述他们正在体验的气味,然后利用LLM根据这些描述来猜测气味。通过比较LLM的猜测结果与实际气味,可以评估LLM在嗅觉感知方面的准确性和一致性。这种方法模拟了人类在交流嗅觉体验时的场景,能够更真实地反映LLM的嗅觉感知能力。

技术框架:该研究的技术框架主要包括以下几个部分:1) 气味样本库:包含多种不同的气味样本,例如柠檬、薄荷、迷迭香等。2) 交互式系统:允许参与者嗅闻气味样本,并用自然语言描述他们的感受。3) 大语言模型:使用LLM(具体模型未知)来处理参与者的描述,并预测他们正在体验的气味。4) 评估指标:使用定量和定性方法来评估LLM的性能,例如准确率、召回率、混淆矩阵等。

关键创新:该研究的关键创新在于将LLM应用于嗅觉感知领域,并设计了一个交互式的评估框架。以往的研究主要集中在视觉和听觉感知,而忽略了嗅觉这一重要感官。通过构建一个“嗅闻并描述”的交互式任务,该研究能够更真实地评估LLM在理解和解释人类嗅觉体验方面的能力。此外,该研究还使用了定量和定性方法相结合的评估方式,能够更全面地了解LLM的性能。

关键设计:论文的关键设计包括:1) 气味样本的选择:选择具有代表性和区分度的气味样本,以确保评估的有效性。2) 参与者的招募:招募具有不同背景和经验的参与者,以提高研究的泛化能力。3) 描述方式的引导:引导参与者使用自然语言描述他们的嗅觉体验,避免使用过于专业或抽象的术语。4) LLM的训练和微调:根据具体任务对LLM进行训练和微调,以提高其在嗅觉感知方面的性能。(具体训练细节未知)

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大语言模型在嗅觉感知方面存在明显的局限性。例如,AI系统对柠檬和薄荷等气味的识别准确率较高,但对迷迭香等气味的识别准确率较低。这表明LLM在嗅觉感知上存在偏差,并且难以准确理解和表示所有气味。此外,定性分析也揭示了LLM在理解人类主观描述方面的挑战。具体的性能数据(如准确率、召回率)未知。

🎯 应用场景

该研究的潜在应用领域包括:个性化香氛推荐、食品饮料口味设计、医疗诊断辅助(通过气味识别疾病)、环境监测(检测有害气体)以及虚拟现实和增强现实中的嗅觉体验模拟。通过提升AI对嗅觉的理解能力,可以开发更智能、更人性化的产品和服务,改善人们的生活质量,并为相关行业带来创新。

📄 摘要(原文)

Aligning AI with human intent is important, yet perceptual alignment-how AI interprets what we see, hear, or smell-remains underexplored. This work focuses on olfaction, human smell experiences. We conducted a user study with 40 participants to investigate how well AI can interpret human descriptions of scents. Participants performed "sniff and describe" interactive tasks, with our designed AI system attempting to guess what scent the participants were experiencing based on their descriptions. These tasks evaluated the Large Language Model's (LLMs) contextual understanding and representation of scent relationships within its internal states - high-dimensional embedding space. Both quantitative and qualitative methods were used to evaluate the AI system's performance. Results indicated limited perceptual alignment, with biases towards certain scents, like lemon and peppermint, and continued failing to identify others, like rosemary. We discuss these findings in light of human-AI alignment advancements, highlighting the limitations and opportunities for enhancing HCI systems with multisensory experience integration.