Advancements and limitations of LLMs in replicating human color-word associations

📄 arXiv: 2411.02116v3 📥 PDF

作者: Makoto Fukushima, Shusuke Eshita, Hiroshige Fukuhara

分类: cs.CL, cs.CV, cs.GR, cs.HC

发布日期: 2024-11-04 (更新: 2025-05-07)

备注: 20 pages, 7 figures, 3 tables


💡 一句话要点

评估LLM在复现人类颜色-词语联想方面的能力与局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 颜色-词语联想 语义理解 认知模拟 人机交互

📋 核心要点

  1. 现有研究对LLM在复现人类颜色-词语联想方面的能力关注不足,而这种联想是人类认知和设计的基础。
  2. 该研究对比多代LLM与人类的颜色-词语联想,旨在评估LLM在多大程度上能模拟人类的认知模式。
  3. 实验结果表明,LLM性能随代际提升,但与人类相比仍存在差距,尤其是在情感等特定类别上。

📝 摘要(中文)

颜色-词语联想在人类认知和设计应用中起着基础性作用。大型语言模型(LLMs)已广泛应用,并在各种基准测试中展示了智能行为和自然对话能力。然而,它们复现人类颜色-词语联想的能力仍未得到充分研究。我们使用从10,000多名日本参与者收集的数据,比较了多代LLM(从GPT-3到GPT-4o)与人类的颜色-词语联想,数据涉及17种颜色和80个日语词语(来自八个类别的各10个词语)。研究结果表明,LLM的性能随着代际发展而明显提高,GPT-4o在预测每种颜色和类别中得票最多的词语方面达到了最高的准确率。然而,即使是具有视觉输入的GPT-4o,最高中位数性能也约为50%(概率水平为10%)。此外,我们发现不同词语类别和颜色之间的性能存在差异:LLM在节奏和风景等类别中表现出色,但在情感等类别中表现不佳。有趣的是,从我们的颜色-词语联想数据中估计的颜色辨别能力与人类的颜色辨别模式高度相关,这与之前的研究一致。因此,尽管在基本的颜色辨别方面具有合理的对齐,但人类和LLM在分配给这些颜色的词语方面仍然存在系统性差异。我们的研究强调了LLM能力的进步及其持续存在的局限性,提出了人类和LLM在表示颜色-词语联想时,语义记忆结构可能存在系统性差异的可能性。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在多大程度上能够复现人类的颜色-词语联想。现有方法缺乏对LLM在这一特定认知任务上的深入评估,而颜色-词语联想是人类认知和设计领域的重要组成部分。现有研究未能充分揭示LLM与人类在语义理解上的差异,尤其是在涉及主观感受和文化背景的联想方面。

核心思路:论文的核心思路是通过对比LLM和人类在颜色-词语联想任务上的表现,来评估LLM的语义理解能力。通过分析LLM在不同颜色和词语类别上的表现差异,揭示其在模拟人类认知模式方面的优势和局限性。这种对比分析有助于理解LLM的语义表征方式与人类的差异,并为改进LLM的语义理解能力提供指导。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集超过10,000名日本参与者的颜色-词语联想数据,涉及17种颜色和80个日语词语。2) LLM评估:使用多代LLM(GPT-3到GPT-4o)进行颜色-词语联想预测,并与人类数据进行对比。3) 性能分析:分析LLM在不同颜色和词语类别上的表现,评估其准确率和一致性。4) 相关性分析:分析颜色辨别能力与颜色-词语联想之间的关系,探讨LLM与人类在颜色感知上的差异。

关键创新:该研究的关键创新在于:1) 系统性地评估了多代LLM在颜色-词语联想任务上的表现,揭示了LLM在语义理解方面的进步和局限性。2) 通过对比LLM和人类在不同颜色和词语类别上的表现差异,深入分析了LLM的语义表征方式与人类的差异。3) 探讨了颜色辨别能力与颜色-词语联想之间的关系,为理解LLM的颜色感知能力提供了新的视角。

关键设计:研究的关键设计包括:1) 使用大规模的人类颜色-词语联想数据集,保证了评估结果的可靠性。2) 选择具有代表性的颜色和词语类别,涵盖了不同的语义维度。3) 采用准确率和一致性等指标,全面评估LLM的性能。4) 分析颜色辨别能力与颜色-词语联想之间的关系,深入探讨LLM的颜色感知能力。

📊 实验亮点

GPT-4o在预测颜色-词语联想方面表现最佳,但最高中位数性能仅为50%(概率水平为10%)。LLM在节奏和风景等类别中表现出色,但在情感等类别中表现不佳。颜色辨别能力与颜色-词语联想之间存在高度相关性,但LLM与人类在分配给颜色的词语方面仍存在系统性差异。

🎯 应用场景

该研究成果可应用于改进LLM的语义理解能力,尤其是在涉及主观感受和文化背景的联想方面。此外,该研究还可以为设计领域提供参考,帮助设计师更好地理解用户对颜色的情感反应,从而创造更符合用户需求的产品和服务。未来的研究可以探索如何利用LLM来增强人机交互的自然性和情感表达能力。

📄 摘要(原文)

Color-word associations play a fundamental role in human cognition and design applications. Large Language Models (LLMs) have become widely available and have demonstrated intelligent behaviors in various benchmarks with natural conversation skills. However, their ability to replicate human color-word associations remains understudied. We compared multiple generations of LLMs (from GPT-3 to GPT-4o) against human color-word associations using data collected from over 10,000 Japanese participants, involving 17 colors and 80 words (10 word from eight categories) in Japanese. Our findings reveal a clear progression in LLM performance across generations, with GPT-4o achieving the highest accuracy in predicting the best voted word for each color and category. However, the highest median performance was approximately 50% even for GPT-4o with visual inputs (chance level of 10%). Moreover, we found performance variations across word categories and colors: while LLMs tended to excel in categories such as Rhythm and Landscape, they struggled with categories such as Emotions. Interestingly, color discrimination ability estimated from our color-word association data showed high correlation with human color discrimination patterns, consistent with previous studies. Thus, despite reasonable alignment in basic color discrimination, humans and LLMs still diverge systematically in the words they assign to those colors. Our study highlights both the advancements in LLM capabilities and their persistent limitations, raising the possibility of systematic differences in semantic memory structures between humans and LLMs in representing color-word associations.