Art2Mus: Bridging Visual Arts and Music through Cross-Modal Generation

📄 arXiv: 2410.04906v1 📥 PDF

作者: Ivan Rinaldi, Nicola Fanelli, Giovanna Castellano, Gennaro Vessio

分类: cs.MM, cs.CV, cs.SD, eess.AS

发布日期: 2024-10-07

备注: Presented at the AI for Visual Arts (AI4VA) workshop at ECCV 2024

DOI: 10.1007/978-3-031-92808-6_11


💡 一句话要点

提出Art2Mus以解决复杂艺术作品生成音乐的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 艺术与音乐 生成模型 音频处理 深度学习

📋 核心要点

  1. 现有的图像到音乐模型仅能处理简单图像,无法有效生成复杂数字艺术作品的音乐。
  2. Art2Mus模型通过扩展AudioLDM2架构,结合新创建的数据集,实现从复杂艺术作品生成音乐的能力。
  3. 实验结果显示,Art2Mus生成的音乐与输入艺术作品高度相关,展示了其在多媒体艺术领域的应用潜力。

📝 摘要(中文)

人工智能和生成模型已经彻底改变了音乐创作,许多模型利用文本或视觉提示进行指导。然而,现有的图像到音乐模型仅限于简单图像,无法从复杂的数字艺术作品中生成音乐。为了解决这一问题,本文提出了Art2Mus,一个旨在从数字艺术作品或文本输入生成音乐的新模型。Art2Mus扩展了AudioLDM2架构,并采用了通过ImageBind创建的新数据集,将数字艺术作品与音乐配对。实验结果表明,Art2Mus能够生成与输入刺激相呼应的音乐,显示出在多媒体艺术、互动装置和AI驱动创意工具中的应用潜力。

🔬 方法详解

问题定义:本文旨在解决现有图像到音乐生成模型在处理复杂数字艺术作品时的局限性。现有方法主要针对简单图像,无法捕捉复杂艺术作品的多样性和深度。

核心思路:Art2Mus通过扩展AudioLDM2架构,利用新创建的数据集,旨在实现从复杂艺术作品和文本输入生成音乐的能力。该设计旨在增强模型对多模态输入的理解和生成能力。

技术框架:Art2Mus的整体架构包括数据预处理、特征提取、音乐生成和后处理四个主要模块。首先,通过ImageBind对数字艺术作品进行特征提取,然后将这些特征输入到扩展的AudioLDM2模型中生成音乐,最后进行音频后处理以优化输出质量。

关键创新:Art2Mus的主要创新在于其能够处理复杂的数字艺术作品,并生成与之相匹配的音乐。这一能力在现有的图像到音乐生成模型中是前所未有的,显著提升了生成的音乐质量和相关性。

关键设计:在模型设计中,Art2Mus采用了特定的损失函数来优化生成音乐与输入艺术作品之间的相似度,并在网络结构上进行了调整,以适应多模态输入的特征提取和生成需求。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Art2Mus生成的音乐与输入艺术作品之间的相关性显著提高,验证了其在复杂艺术作品生成音乐方面的有效性。具体性能数据尚未披露,但实验表明该模型在多模态生成任务中表现优异。

🎯 应用场景

Art2Mus的研究具有广泛的应用潜力,尤其是在多媒体艺术创作、互动艺术装置和AI驱动的创意工具中。它能够为艺术家提供新的创作方式,促进视觉艺术与音乐的融合,推动艺术表现形式的创新。

📄 摘要(原文)

Artificial Intelligence and generative models have revolutionized music creation, with many models leveraging textual or visual prompts for guidance. However, existing image-to-music models are limited to simple images, lacking the capability to generate music from complex digitized artworks. To address this gap, we introduce $\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$, a novel model designed to create music from digitized artworks or text inputs. $\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$ extends the AudioLDM~2 architecture, a text-to-audio model, and employs our newly curated datasets, created via ImageBind, which pair digitized artworks with music. Experimental results demonstrate that $\mathcal{A}\textit{rt2}\mathcal{M}\textit{us}$ can generate music that resonates with the input stimuli. These findings suggest promising applications in multimedia art, interactive installations, and AI-driven creative tools.