AssoCiAm: A Benchmark for Evaluating Association Thinking while Circumventing Ambiguity

📄 arXiv: 2509.14171v2 📥 PDF

作者: Yifan Liu, Wenkuan Zhao, Shanshan Zhong, Jinghui Qin, Mingfu Liang, Zhongzhan Huang, Wushao Wen

分类: cs.CL

发布日期: 2025-09-17 (更新: 2025-09-18)

备注: Accepted by EMNLP 2025 main track


💡 一句话要点

提出AssoCiAm基准,通过混合计算方法评估多模态大语言模型的联想思维能力,并规避歧义性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 联想思维 创造力评估 歧义性规避 混合计算 人工智能 认知能力 基准测试

📋 核心要点

  1. 现有联想能力评估框架忽略了联想任务中固有的歧义性,导致评估结果的可靠性降低。
  2. 论文提出AssoCiAm基准,通过混合计算方法来评估联想能力,并有效规避内部和外部歧义。
  3. 实验结果表明,认知能力与联想能力之间存在显著的正相关,并验证了该方法在提高评估准确性方面的有效性。

📝 摘要(中文)

多模态大语言模型(MLLMs)的最新进展备受关注,为实现通用人工智能(AGI)提供了一条有希望的途径。在AGI所需的关键能力中,创造力已成为MLLM的重要特征,而联想是其基础。联想反映了模型创造性思考的能力,因此评估和理解它至关重要。虽然已经提出了几个评估联想能力的框架,但它们通常忽略了联想任务中固有的歧义性,这种歧义性源于联想的发散性,并破坏了评估的可靠性。为了解决这个问题,我们将歧义性分解为两种类型——内部歧义和外部歧义——并引入AssoCiAm,这是一个旨在评估联想能力同时通过混合计算方法规避歧义性的基准。然后,我们对MLLM进行了广泛的实验,揭示了认知和联想之间存在很强的正相关关系。此外,我们观察到评估过程中歧义性的存在导致MLLM的行为变得更加随机。最后,我们验证了我们的方法在确保更准确和可靠的评估方面的有效性。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)联想能力评估中存在的歧义性问题。现有的评估框架未能充分考虑联想的发散性,导致评估结果受到主观因素和噪声的影响,无法准确反映模型的真实联想能力。这种歧义性主要体现在内部歧义(联想本身的多样性)和外部歧义(评估标准的不确定性)两个方面。

核心思路:论文的核心思路是通过设计一个能够规避歧义性的评估基准AssoCiAm,从而更准确地评估MLLMs的联想能力。AssoCiAm采用混合计算方法,结合了自动评估和人工评估的优点,以减少歧义性对评估结果的影响。通过控制联想任务的难度和评估标准,降低内部歧义;通过引入明确的评估规则和流程,减少外部歧义。

技术框架:AssoCiAm基准的整体框架包含以下几个主要模块:1) 联想任务生成模块:用于生成一系列联想任务,这些任务经过精心设计,以控制联想的难度和范围。2) 自动评估模块:使用预定义的规则和算法对模型的联想结果进行初步评估,筛选出高质量的联想结果。3) 人工评估模块:由人工评估员对自动评估模块筛选出的联想结果进行进一步评估,以确保评估的准确性和可靠性。4) 结果分析模块:对评估结果进行统计分析,以了解模型的联想能力水平。

关键创新:论文最重要的技术创新点在于提出了一个能够有效规避歧义性的联想能力评估基准AssoCiAm。与现有的评估方法相比,AssoCiAm更加注重对歧义性的控制,通过混合计算方法,结合了自动评估和人工评估的优点,从而提高了评估的准确性和可靠性。此外,论文还对歧义性进行了分解,将其分为内部歧义和外部歧义,并针对这两种类型的歧义性提出了相应的解决方案。

关键设计:AssoCiAm的关键设计包括:1) 联想任务的设计:联想任务经过精心设计,以控制联想的难度和范围,避免出现过于发散或过于简单的联想结果。2) 自动评估规则的设计:自动评估规则基于预定义的知识库和语义相似度计算方法,能够对模型的联想结果进行初步筛选。3) 人工评估规则的设计:人工评估规则明确了评估的标准和流程,以减少评估员的主观偏差。4) 评估指标的设计:评估指标综合考虑了联想的创造性、相关性和流畅性,能够全面反映模型的联想能力水平。

📊 实验亮点

实验结果表明,使用AssoCiAm基准评估MLLMs的联想能力时,认知能力与联想能力之间存在显著的正相关关系。同时,实验还验证了AssoCiAm基准在规避歧义性方面的有效性,使用AssoCiAm评估时,MLLMs的行为更加稳定,评估结果更加可靠。相比于传统评估方法,AssoCiAm能够更准确地反映模型的真实联想能力。

🎯 应用场景

该研究成果可应用于多模态大语言模型的创造力评估和提升,例如在智能对话、内容生成、创意设计等领域。通过更准确地评估模型的联想能力,可以更好地指导模型训练,提高其在实际应用中的表现。此外,该研究提出的歧义性控制方法也为其他创造力评估任务提供了借鉴。

📄 摘要(原文)

Recent advancements in multimodal large language models (MLLMs) have garnered significant attention, offering a promising pathway toward artificial general intelligence (AGI). Among the essential capabilities required for AGI, creativity has emerged as a critical trait for MLLMs, with association serving as its foundation. Association reflects a model' s ability to think creatively, making it vital to evaluate and understand. While several frameworks have been proposed to assess associative ability, they often overlook the inherent ambiguity in association tasks, which arises from the divergent nature of associations and undermines the reliability of evaluations. To address this issue, we decompose ambiguity into two types-internal ambiguity and external ambiguity-and introduce AssoCiAm, a benchmark designed to evaluate associative ability while circumventing the ambiguity through a hybrid computational method. We then conduct extensive experiments on MLLMs, revealing a strong positive correlation between cognition and association. Additionally, we observe that the presence of ambiguity in the evaluation process causes MLLMs' behavior to become more random-like. Finally, we validate the effectiveness of our method in ensuring more accurate and reliable evaluations. See Project Page for the data and codes.