The Persistence of Cultural Memory: Investigating Multimodal Iconicity in Diffusion Models
作者: Maria-Teresa De Rosa Palmini, Eva Cetinic
分类: cs.CV, cs.AI
发布日期: 2025-11-14
💡 一句话要点
提出多模态标志性评估框架,用于分析扩散模型中的文化记忆持久性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 文化记忆 多模态学习 文本到图像生成 评估框架
📋 核心要点
- 现有文本到图像扩散模型难以区分泛化和记忆,尤其是在文化标志性内容上。
- 提出一种多模态标志性评估框架,区分模型对文化参考的识别和实现(复制或重新解释)。
- 实验表明,该框架能有效区分复制和转换,并发现文化一致性与训练数据频率、文本独特性等因素相关。
📝 摘要(中文)
本研究探讨了文本到图像扩散模型中泛化和记忆之间的模糊性,重点关注多模态标志性这一特定情况。多模态标志性指的是图像和文本唤起文化共享联想的实例,例如标题让人联想到熟悉的艺术作品或电影场景。与先前侧重于遗忘的记忆和非学习研究不同,我们考察了什么被记住以及如何被记住,关注识别文化参考和重现文化参考之间的平衡。我们引入了一个评估框架,将识别(模型是否识别出参考)与实现(模型如何通过复制或重新解释来描绘参考)分开,并通过衡量两个维度来量化。通过评估跨越767个源自Wikidata的文化参考(涵盖静态和动态图像)的五个扩散模型,我们表明我们的框架比现有的基于相似性的方法更有效地区分了复制和转换。为了评估语言敏感性,我们进行了提示扰动实验,使用同义词替换和字面图像描述,发现即使文本提示改变,模型通常也会重现标志性的视觉结构。最后,我们的分析表明,文化一致性不仅与训练数据频率相关,还与文本独特性、参考流行度和创建日期相关。我们的工作表明,扩散模型的价值不仅在于它们重现的内容,还在于它们如何转换和重新语境化文化知识,从而将评估从简单的文本-图像匹配提升到更丰富的语境理解。
🔬 方法详解
问题定义:论文旨在解决文本到图像扩散模型在生成图像时,如何区分是对文化记忆的简单复制,还是基于理解的重新诠释的问题。现有方法主要依赖于文本-图像相似度匹配,无法有效区分这两种情况,也难以评估模型对文化语境的理解程度。
核心思路:论文的核心思路是将对文化参考的评估分解为两个维度:识别(Recognition)和实现(Realization)。识别是指模型是否能够识别出文本提示中蕴含的文化参考;实现是指模型如何将该文化参考转化为图像,是简单复制还是进行创新性的重新诠释。通过分别评估这两个维度,可以更全面地了解模型对文化记忆的理解和运用。
技术框架:论文提出的评估框架包含以下几个主要步骤:1) 构建包含大量文化参考的测试数据集,这些参考来源于Wikidata,涵盖静态和动态图像。2) 使用不同的文本到图像扩散模型生成图像,并针对每个生成的图像,评估其识别和实现两个维度。3) 识别维度通过人工评估或自动分类器判断模型是否识别出文化参考。4) 实现维度通过计算生成图像与原始文化参考图像之间的相似度,以及评估生成图像是否具有创新性来衡量。5) 通过提示扰动实验,分析模型对文本提示的敏感性。
关键创新:论文的关键创新在于提出了一个多维度的评估框架,将对文化记忆的评估分解为识别和实现两个维度,从而更全面地了解模型对文化记忆的理解和运用。此外,论文还构建了一个包含大量文化参考的测试数据集,为评估扩散模型在文化记忆方面的表现提供了基础。
关键设计:在实现维度上,论文采用了多种相似度度量方法,包括像素级别的相似度、特征级别的相似度等。此外,论文还设计了一种创新性评估指标,用于衡量生成图像是否具有创新性。在提示扰动实验中,论文使用了同义词替换和字面图像描述等方法,以评估模型对文本提示的敏感性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的评估框架能够有效区分复制和转换,优于传统的基于相似性的方法。研究发现,文化一致性不仅与训练数据频率相关,还与文本独特性、参考流行度和创建日期相关。提示扰动实验表明,即使文本提示改变,模型也经常重现标志性的视觉结构。
🎯 应用场景
该研究成果可应用于评估和改进文本到图像生成模型的文化理解能力,避免模型生成带有偏见或不准确的文化图像。此外,该研究还有助于开发更具创造性和文化敏感性的图像生成应用,例如艺术创作、教育娱乐等领域。未来的研究可以探索如何将文化知识融入到扩散模型的训练过程中,从而提高模型的文化理解能力。
📄 摘要(原文)
Our work addresses the ambiguity between generalization and memorization in text-to-image diffusion models, focusing on a specific case we term multimodal iconicity. This refers to instances where images and texts evoke culturally shared associations, such as when a title recalls a familiar artwork or film scene. While prior research on memorization and unlearning emphasizes forgetting, we examine what is remembered and how, focusing on the balance between recognizing cultural references and reproducing them. We introduce an evaluation framework that separates recognition, whether a model identifies a reference, from realization, how it depicts it through replication or reinterpretation, quantified through measures capturing both dimensions. By evaluating five diffusion models across 767 Wikidata-derived cultural references spanning static and dynamic imagery, we show that our framework distinguishes replication from transformation more effectively than existing similarity-based methods. To assess linguistic sensitivity, we conduct prompt perturbation experiments using synonym substitutions and literal image descriptions, finding that models often reproduce iconic visual structures even when textual cues are altered. Finally, our analysis shows that cultural alignment correlates not only with training data frequency, but also textual uniqueness, reference popularity, and creation date. Our work reveals that the value of diffusion models lies not only in what they reproduce but in how they transform and recontextualize cultural knowledge, advancing evaluation beyond simple text-image matching toward richer contextual understanding.