A Multimodal Symphony: Integrating Taste and Sound through Generative AI

📄 arXiv: 2503.02823v1 📥 PDF

作者: Matteo Spanio, Massimiliano Zampini, Antonio Rodà, Franco Pierucci

分类: cs.SD, cs.AI, cs.MM, eess.AS

发布日期: 2025-03-04

备注: 17 pages, 6 figures (2 + 2 figures with 2 subfigures each)

期刊: Front. Comput. Sci. 7:1575741 (2025)

DOI: 10.3389/fcomp.2025.1575741


💡 一句话要点

利用生成式AI融合味觉与听觉:提出基于MusicGEN微调的味觉音乐生成模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 多模态融合 味觉感知 音乐生成 MusicGEN 模型微调 具身交互

📋 核心要点

  1. 现有方法难以有效捕捉味觉与听觉之间的复杂关联,限制了味觉驱动的音乐生成质量。
  2. 通过微调MusicGEN模型,使其能够理解并生成与特定味觉描述相符的音乐。
  3. 实验表明,微调后的模型在生成与味觉描述更一致的音乐方面优于原始模型。

📝 摘要(中文)

近年来,神经科学和心理学研究表明味觉和听觉感知之间存在直接关联。本文基于此,探索了能够将味觉信息转化为音乐的多模态生成模型。我们简要回顾了该领域的研究现状,重点介绍了关键发现和方法。我们进行了一项实验,其中使用生成音乐模型MusicGEN的微调版本,根据每首音乐作品的详细味觉描述生成音乐。结果很有希望:根据参与者(n=111)的评估,与非微调模型相比,微调模型生成的音乐更能连贯地反映输入的味觉描述。这项研究代表了在理解和开发人工智能、声音和味觉之间的具身交互方面的重要一步,为生成式人工智能领域开辟了新的可能性。我们发布了数据集、代码和预训练模型。

🔬 方法详解

问题定义:论文旨在解决如何利用生成式AI,将人类对味觉的感知转化为具有情感和语义一致性的音乐作品。现有方法通常难以捕捉味觉描述中的细微差别,并且生成的音乐缺乏与味觉体验的关联性。因此,如何建立味觉信息与音乐特征之间的有效映射是本研究的核心问题。

核心思路:论文的核心思路是利用预训练的生成音乐模型MusicGEN,并通过微调的方式,使其能够学习味觉描述与音乐风格之间的对应关系。通过提供带有详细味觉描述的音乐样本进行训练,模型能够逐渐掌握将味觉信息转化为音乐的能力。这种方法避免了从零开始训练模型,从而提高了效率和生成质量。

技术框架:整体框架包括数据收集与标注、模型微调和音乐生成三个主要阶段。首先,收集包含音乐作品和对应味觉描述的数据集。然后,使用该数据集对MusicGEN模型进行微调,使其能够根据输入的味觉描述生成音乐。最后,通过人工评估的方式验证生成音乐与味觉描述的一致性。

关键创新:该研究的关键创新在于将预训练的生成音乐模型MusicGEN与味觉信息相结合,通过微调的方式实现了味觉驱动的音乐生成。与传统的基于规则或统计模型的音乐生成方法相比,该方法能够生成更具创造性和情感表达力的音乐作品。

关键设计:论文的关键设计包括:1) 使用详细的味觉描述作为输入,例如甜度、酸度、苦度等;2) 选择MusicGEN作为基础模型,因为它具有强大的音乐生成能力;3) 使用合适的损失函数(未知,论文未明确说明)来优化模型,使其能够更好地学习味觉信息与音乐特征之间的对应关系;4) 通过人工评估的方式验证生成音乐的质量和与味觉描述的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过微调的MusicGEN模型在生成与味觉描述更一致的音乐方面显著优于未微调的模型。参与者评估显示,微调后的模型生成的音乐更能准确地反映输入的味觉信息。具体性能数据(例如一致性评分)未知,但整体结果表明该方法具有有效性。

🎯 应用场景

该研究成果可应用于多个领域,例如个性化音乐推荐、餐饮体验设计和艺术创作。通过将食物的味觉信息转化为音乐,可以为用餐者创造更加丰富和沉浸式的体验。此外,该技术还可以用于辅助音乐创作,为作曲家提供新的灵感来源。未来,该技术有望进一步发展,实现更加智能和个性化的音乐生成。

📄 摘要(原文)

In recent decades, neuroscientific and psychological research has traced direct relationships between taste and auditory perceptions. This article explores multimodal generative models capable of converting taste information into music, building on this foundational research. We provide a brief review of the state of the art in this field, highlighting key findings and methodologies. We present an experiment in which a fine-tuned version of a generative music model (MusicGEN) is used to generate music based on detailed taste descriptions provided for each musical piece. The results are promising: according the participants' ($n=111$) evaluation, the fine-tuned model produces music that more coherently reflects the input taste descriptions compared to the non-fine-tuned model. This study represents a significant step towards understanding and developing embodied interactions between AI, sound, and taste, opening new possibilities in the field of generative AI. We release our dataset, code and pre-trained model at: https://osf.io/xs5jy/.