Cultural Alien Sampler: Open-ended art generation balancing originality and coherence
作者: Alejandro H. Artiles, Hiromu Yakura, Levin Brinkmann, Mar Canet Sola, Hassan Abu Alhaija, Ignacio Serna, Nasim Rahaman, Bernhard Schölkopf, Iyad Rahwan
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-10-21
备注: Proceedings of the 39th Conference on Neural Information Processing Systems (NeurIPS 2025). Creative AI Track. 26 pages, 24 figures
💡 一句话要点
提出文化异类采样器(CAS),在开放式艺术生成中平衡原创性和连贯性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放式生成 艺术生成 文化异类采样 概念选择 大型语言模型
📋 核心要点
- 现有大型语言模型在开放式艺术生成中,难以同时保证作品的原创性和内在连贯性,容易陷入文化定势或牺牲作品质量。
- 论文提出文化异类采样器(CAS),通过分离组合适应性和文化典型性,选择高连贯性、低典型性的概念组合,生成新颖且连贯的艺术想法。
- 实验结果表明,CAS在原创性和和谐性方面优于GPT-4o等基线,并与人类艺术系学生相当,同时生成更多样化的输出。
📝 摘要(中文)
在艺术等开放领域,自主智能体必须生成既原创又内在连贯的想法。然而,目前的大型语言模型(LLM)要么默认采用熟悉的文化模式,要么在追求新颖性时牺牲连贯性。为了解决这个问题,我们引入了文化异类采样器(CAS),这是一种概念选择方法,它明确地将组合适应性与文化典型性分开。CAS使用两个在WikiArt概念上微调的GPT-2模型:一个概念连贯性模型,用于评估概念在艺术品中共现的合理性;一个文化背景模型,用于估计这些组合在单个艺术家的作品中有多典型。CAS的目标是选择那些连贯性高但典型性低的组合,从而产生在保持内在一致性的同时,偏离已学习的惯例和嵌入的文化背景的想法。在人工评估(N = 100)中,我们的方法优于随机选择和GPT-4o基线,并在感知到的原创性和和谐性方面达到了与人类艺术系学生相当的性能。此外,一项定量研究表明,我们的方法比GPT-4o产生更多样化的输出,并探索更广泛的概念空间,这表明人工文化异类性可以释放自主智能体的创造潜力。
🔬 方法详解
问题定义:论文旨在解决开放式艺术生成中,现有大型语言模型难以平衡原创性和连贯性的问题。现有方法要么倾向于生成符合常见文化模式的作品,缺乏创新性;要么为了追求新颖性而牺牲作品的内在逻辑和艺术质量。
核心思路:论文的核心思路是将概念的组合适应性(Coherence)与文化典型性(Typicality)分离,并设计一种采样策略,选择那些组合适应性高但文化典型性低的概念组合。这种策略旨在生成既具有内在一致性,又能够突破现有文化框架和惯例的艺术作品。
技术框架:CAS包含两个主要模块:概念连贯性模型(Concept Coherence Model)和文化背景模型(Cultural Context Model)。这两个模型均基于在WikiArt数据集上微调的GPT-2模型。整体流程为:首先,生成一系列概念组合;然后,使用概念连贯性模型评估这些组合在艺术作品中共同出现的合理性;接着,使用文化背景模型评估这些组合在特定艺术家作品中的典型程度;最后,根据连贯性和典型性的得分,选择那些高连贯性、低典型性的概念组合。
关键创新:论文的关键创新在于提出了文化异类采样(Cultural Alien Sampling)的概念,并将其应用于艺术生成领域。通过显式地建模和分离概念的连贯性和典型性,CAS能够有效地引导模型生成既新颖又合理的艺术想法。与传统的生成模型相比,CAS更加注重对文化背景的理解和突破,从而实现更高水平的创造性。
关键设计:概念连贯性模型和文化背景模型均基于GPT-2模型,并通过在WikiArt数据集上进行微调来学习艺术概念之间的关系和文化模式。论文使用交叉熵损失函数来训练这两个模型,并采用负采样技术来提高训练效率。在采样阶段,论文使用一种基于连贯性和典型性得分的加权采样策略,以选择最终的概念组合。
🖼️ 关键图片
📊 实验亮点
人工评估结果显示,CAS在原创性和和谐性方面均优于GPT-4o基线,并达到了与人类艺术系学生相当的水平。定量研究表明,CAS能够生成比GPT-4o更多样化的输出,并探索更广泛的概念空间。这些结果表明,文化异类采样能够有效地提升AI在开放式艺术生成中的创造潜力。
🎯 应用场景
该研究成果可应用于艺术创作辅助工具、创意设计、游戏内容生成等领域。通过CAS,AI可以生成更具创新性和艺术性的内容,帮助艺术家拓展创作思路,提升创作效率。此外,该方法还可以应用于其他开放式生成领域,例如故事创作、音乐生成等,具有广阔的应用前景。
📄 摘要(原文)
In open-ended domains like art, autonomous agents must generate ideas that are both original and internally coherent, yet current Large Language Models (LLMs) either default to familiar cultural patterns or sacrifice coherence when pushed toward novelty. We address this by introducing the Cultural Alien Sampler (CAS), a concept-selection method that explicitly separates compositional fit from cultural typicality. CAS uses two GPT-2 models fine-tuned on WikiArt concepts: a Concept Coherence Model that scores whether concepts plausibly co-occur within artworks, and a Cultural Context Model that estimates how typical those combinations are within individual artists' bodies of work. CAS targets combinations that are high in coherence and low in typicality, yielding ideas that maintain internal consistency while deviating from learned conventions and embedded cultural context. In a human evaluation (N = 100), our approach outperforms random selection and GPT-4o baselines and achieves performance comparable to human art students in both perceived originality and harmony. Additionally, a quantitative study shows that our method produces more diverse outputs and explores a broader conceptual space than its GPT-4o counterpart, demonstrating that artificial cultural alienness can unlock creative potential in autonomous agents.