Evaluating the Robustness of Analogical Reasoning in Large Language Models

📄 arXiv: 2411.14215v1 📥 PDF

作者: Martha Lewis, Melanie Mitchell

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-11-21

备注: 31 pages, 13 figures. arXiv admin note: text overlap with arXiv:2402.08955


💡 一句话要点

评估大语言模型在类比推理中对变体的鲁棒性,揭示其脆弱性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 类比推理 鲁棒性评估 抽象推理 认知能力 泛化能力 变体测试

📋 核心要点

  1. 现有LLM在类比推理任务中表现出色,但其泛化能力和对预训练数据依赖程度存在争议。
  2. 本研究通过引入类比问题的变体,评估LLM在字母字符串、数字矩阵和故事类比三个领域的鲁棒性。
  3. 实验表明,LLM在简单字母字符串类比中对变体鲁棒性较差,且易受故事类比中答案顺序和释义的影响。

📝 摘要(中文)

大型语言模型(LLMs)在包括测试类比推理能力在内的多个推理基准测试中表现良好。然而,关于它们执行的是通用抽象推理,还是采用非鲁棒的过程(例如,过度依赖与预训练数据的相似性),存在争议。本文研究了LLMs在Webb、Holyoak和Lu(2023)研究的四个领域中的三个领域(字母字符串类比、数字矩阵和故事类比)中,先前声称的类比能力的鲁棒性。对于每个领域,我们测试人类和GPT模型对原始类比问题的变体的鲁棒性,这些变体测试相同的抽象推理能力,但可能与预训练数据中的任务不同。一个使用鲁棒抽象推理的系统的性能不应在这些变体上大幅下降。在简单的字母字符串类比中,我们发现,虽然人类在测试的两种变体上的表现仍然很高,但GPT模型的表现急剧下降。随着这些问题的复杂性增加,这种模式不太明显,因为人类和GPT模型在需要更复杂类比的原始问题和变体问题上的表现都很差。在数字矩阵问题上,我们发现了类似的模式,但仅在测试的两种变体中的一种上。在基于故事的类比问题上,我们发现,与人类不同,GPT模型的表现容易受到答案顺序的影响,并且GPT模型可能比人类对释义更敏感。这项工作提供的证据表明,LLMs通常缺乏零样本人类类比的鲁棒性,在我们测试的大多数变体中表现出脆弱性。更一般地说,这项工作指出了在测试AI系统的认知能力时,不仅要仔细评估其准确性,还要仔细评估其鲁棒性的重要性。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在类比推理任务中的鲁棒性。现有方法,即直接在标准类比推理数据集上评估LLMs,无法区分LLMs是真正掌握了抽象推理能力,还是仅仅依赖于与预训练数据相似的模式匹配。这种模式匹配使得LLMs在面对与预训练数据分布不同的新问题时表现不佳,即缺乏鲁棒性。

核心思路:论文的核心思路是通过构建原始类比问题的变体来测试LLMs的鲁棒性。这些变体旨在保持相同的抽象推理要求,但与预训练数据中的任务具有较低的表面相似性。如果LLMs真正掌握了抽象推理能力,那么它们在这些变体上的表现不应显著下降。反之,如果LLMs主要依赖于模式匹配,那么它们在变体上的表现将会显著下降。

技术框架:论文采用实验研究的方法,针对三种类型的类比问题(字母字符串类比、数字矩阵类比和故事类比)设计了相应的变体。对于每种类型的类比问题,都设计了多种变体,以测试LLMs对不同类型干扰因素的敏感性。然后,将LLMs和人类参与者在原始问题和变体问题上进行比较,以评估LLMs的鲁棒性。使用的LLM包括GPT系列模型。

关键创新:论文的关键创新在于提出了通过构建类比问题的变体来评估LLMs鲁棒性的方法。这种方法能够更有效地揭示LLMs在类比推理任务中的局限性,并区分LLMs是真正掌握了抽象推理能力,还是仅仅依赖于模式匹配。

关键设计:对于字母字符串类比,变体包括改变字母的字体、大小写等。对于数字矩阵类比,变体包括改变数字的颜色、背景等。对于故事类比,变体包括改变故事的叙述方式、答案的顺序等。这些变体的设计旨在保持相同的抽象推理要求,但降低与预训练数据的表面相似性。实验中,使用了不同规模的GPT模型,并与人类参与者的表现进行了比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在简单的字母字符串类比中,GPT模型在变体上的表现显著低于人类。在故事类比中,GPT模型容易受到答案顺序和释义的影响,表明其对表面特征的敏感性高于人类。这些结果表明,LLM在类比推理中缺乏人类的鲁棒性,需要在未来的研究中加以改进。

🎯 应用场景

该研究成果可应用于评估和改进AI系统的认知能力,尤其是在需要抽象推理和泛化能力的场景中,如智能客服、决策支持系统和教育软件。通过提高AI系统的鲁棒性,可以使其在更复杂和多变的环境中可靠运行,并减少对特定训练数据的依赖。

📄 摘要(原文)

LLMs have performed well on several reasoning benchmarks, including ones that test analogical reasoning abilities. However, there is debate on the extent to which they are performing general abstract reasoning versus employing non-robust processes, e.g., that overly rely on similarity to pre-training data. Here we investigate the robustness of analogy-making abilities previously claimed for LLMs on three of four domains studied by Webb, Holyoak, and Lu (2023): letter-string analogies, digit matrices, and story analogies. For each domain we test humans and GPT models on robustness to variants of the original analogy problems that test the same abstract reasoning abilities but are likely dissimilar from tasks in the pre-training data. The performance of a system that uses robust abstract reasoning should not decline substantially on these variants. On simple letter-string analogies, we find that while the performance of humans remains high for two types of variants we tested, the GPT models' performance declines sharply. This pattern is less pronounced as the complexity of these problems is increased, as both humans and GPT models perform poorly on both the original and variant problems requiring more complex analogies. On digit-matrix problems, we find a similar pattern but only on one out of the two types of variants we tested. On story-based analogy problems, we find that, unlike humans, the performance of GPT models are susceptible to answer-order effects, and that GPT models also may be more sensitive than humans to paraphrasing. This work provides evidence that LLMs often lack the robustness of zero-shot human analogy-making, exhibiting brittleness on most of the variations we tested. More generally, this work points to the importance of carefully evaluating AI systems not only for accuracy but also robustness when testing their cognitive capabilities.