Assessing LLMs in Art Contexts: Critique Generation and Theory of Mind Evaluation
作者: Takaya Arita, Wenxian Zheng, Reiji Suzuki, Fuminori Akiba
分类: cs.CL, cs.CY, cs.HC
发布日期: 2025-04-17 (更新: 2025-09-14)
备注: Corrected a typo in the metadata title only ("Assesing"->"Assessing"). No changes were made to the PDF or source files
💡 一句话要点
评估LLM在艺术语境下的表现:评论生成与心理理论能力评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 艺术评论生成 心理理论 图灵测试 情感推理 道德推理 逐步提示 艺术理解
📋 核心要点
- 现有方法难以让LLM在艺术评论生成和心理理论方面表现出人类水平的理解和推理能力。
- 论文结合艺术批评理论和逐步提示,引导LLM生成更连贯和解释丰富的艺术评论,并设计新的ToM任务。
- 实验表明,精心指导的LLM能生成难以与人类专家区分的评论,并在特定ToM任务中表现出一定的推理能力。
📝 摘要(中文)
本研究探索了大型语言模型(LLM)在艺术相关领域的表现,具体包括艺术作品评论的撰写以及在艺术相关情境中对心理状态的推理(心理理论,ToM)。在评论生成方面,我们构建了一个系统,将诺埃尔·卡罗尔的评估框架与广泛的艺术批评理论相结合。该模型被提示首先撰写完整的评论,然后使用逐步提示过程生成更短、更连贯的版本。这些AI生成的评论与人类专家撰写的评论进行了图灵测试式的评估。在许多情况下,人类受试者难以区分两者,结果表明,只要经过精心指导,LLM可以生成风格上合理且解释丰富的评论。在第二部分,我们引入了基于艺术情境中涉及解释、情感和道德张力的新型简单ToM任务。这些任务超越了标准的错误信念测试,并允许进行更复杂、社会嵌入式的推理。我们测试了41个最新的LLM,发现它们的表现因任务和模型而异。特别是,涉及情感或模糊情境的任务往往能更清晰地揭示差异。总而言之,这些结果有助于阐明LLM如何应对复杂的解释性挑战,揭示了它们的认知局限性和潜力。虽然我们的发现并没有直接反驳所谓的生成式AI悖论——即LLM可以在没有真正理解的情况下产生专家级的输出——但它们表明,根据LLM的指导方式(例如通过精心设计的提示),这些模型可能会开始表现出比我们想象的更接近理解的行为。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在艺术领域的理解和推理能力,具体体现在两个方面:一是生成高质量的艺术评论,二是理解艺术情境中的心理理论(ToM)。现有方法的痛点在于,LLM生成的评论可能缺乏深度和连贯性,并且在涉及情感和道德的复杂情境中,LLM的推理能力受到限制。
核心思路:论文的核心解决思路是,通过结合艺术批评理论和精心设计的提示策略,引导LLM生成更具深度和连贯性的艺术评论。同时,设计新的ToM任务,以评估LLM在涉及情感和道德的复杂情境中的推理能力。这种方法旨在使LLM的表现更接近人类专家水平。
技术框架:整体框架包含两个主要部分:艺术评论生成和心理理论评估。艺术评论生成部分,首先使用诺埃尔·卡罗尔的评估框架和广泛的艺术批评理论对LLM进行指导,然后使用逐步提示过程生成评论。心理理论评估部分,设计新的ToM任务,涉及解释、情感和道德张力,并使用这些任务评估41个LLM。
关键创新:论文的关键创新在于:1) 将艺术批评理论与LLM结合,用于生成更具深度的艺术评论。2) 设计了新的ToM任务,这些任务超越了标准的错误信念测试,更贴近实际的艺术情境。3) 通过图灵测试式的评估,验证了LLM生成评论的质量。
关键设计:在艺术评论生成方面,使用了逐步提示策略,即首先提示LLM生成完整的评论,然后逐步生成更短、更连贯的版本。在心理理论评估方面,设计了涉及解释、情感和道德张力的ToM任务,这些任务旨在评估LLM在复杂情境中的推理能力。具体的参数设置和网络结构取决于所使用的LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过精心指导的LLM可以生成难以与人类专家区分的艺术评论。在图灵测试中,人类受试者在区分AI生成的评论和人类专家撰写的评论时遇到了困难。此外,实验还发现,LLM在涉及情感和模糊情境的ToM任务中表现出差异,这表明LLM在理解复杂情境方面仍存在局限性,但也展现出一定的潜力。
🎯 应用场景
该研究成果可应用于艺术教育、艺术评论辅助工具开发、以及提升AI在文化创意领域的应用能力。通过让AI理解和生成艺术评论,可以帮助学生更好地理解艺术作品,并为专业评论家提供灵感。此外,该研究也有助于提升AI在涉及情感和道德推理方面的能力,使其在更广泛的社会应用中更具价值。
📄 摘要(原文)
This study explored how large language models (LLMs) perform in two areas related to art: writing critiques of artworks and reasoning about mental states (Theory of Mind, or ToM) in art-related situations. For the critique generation part, we built a system that combines Noel Carroll's evaluative framework with a broad selection of art criticism theories. The model was prompted to first write a full-length critique and then shorter, more coherent versions using a step-by-step prompting process. These AI-generated critiques were then compared with those written by human experts in a Turing test-style evaluation. In many cases, human subjects had difficulty telling which was which, and the results suggest that LLMs can produce critiques that are not only plausible in style but also rich in interpretation, as long as they are carefully guided. In the second part, we introduced new simple ToM tasks based on situations involving interpretation, emotion, and moral tension, which can appear in the context of art. These go beyond standard false-belief tests and allow for more complex, socially embedded forms of reasoning. We tested 41 recent LLMs and found that their performance varied across tasks and models. In particular, tasks that involved affective or ambiguous situations tended to reveal clearer differences. Taken together, these results help clarify how LLMs respond to complex interpretative challenges, revealing both their cognitive limitations and potential. While our findings do not directly contradict the so-called Generative AI Paradox--the idea that LLMs can produce expert-like output without genuine understanding--they suggest that, depending on how LLMs are instructed, such as through carefully designed prompts, these models may begin to show behaviors that resemble understanding more closely than we might assume.