On Language Models' Sensitivity to Suspicious Coincidences

📄 arXiv: 2504.09387v1 📥 PDF

作者: Sriram Padmanabhan, Kanishka Misra, Kyle Mahowald, Eunsol Choi

分类: cs.CL

发布日期: 2025-04-13


💡 一句话要点

研究发现语言模型在零样本学习中对可疑巧合不敏感,但可通过提示工程增强

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 归纳推理 可疑巧合 零样本学习 提示工程

📋 核心要点

  1. 人类在归纳推理中会考虑数据采样方式,对“可疑巧合”敏感,现有研究缺乏对语言模型此能力的考察。
  2. 该论文通过设计数字游戏和城市选择任务,研究语言模型是否能像人类一样识别并利用“可疑巧合”进行推理。
  3. 实验发现,语言模型在零样本学习中对此不敏感,但通过思维链等提示工程,可以有效提升模型对“可疑巧合”的利用能力。

📝 摘要(中文)

人类在数据上进行归纳推理时,会对可疑巧合现象表现出敏感性,因为他们会假设数据的采样方式。这导致人们倾向于选择更小、更具体的假设,而不是更一般的假设。例如,当给出集合{奥斯汀,达拉斯,休斯顿}时,人们更倾向于认为这是从“德克萨斯州城市”中抽取的,而不是从“美国城市”中抽取的,即使两者都兼容。可疑巧合与语用推理密切相关,可以作为分析系统对任务沟通目标敏感性的测试平台(即,找出数据背后的真实类别)。本文分析了语言模型的行为是否反映了可疑巧合效应。我们在两个领域进行了研究:1)数字游戏,人类判断一个数字(例如,4)是否适合给定的数字列表(例如,16,32,2);2)通过将数字游戏设置扩展到著名城市。对于这两个领域,数据都与多个假设兼容,我们研究哪个假设与模型的行为最一致。通过分析五个模型,我们没有发现语言模型在零样本行为中存在可疑巧合的有力证据。然而,当通过思维链或显式提示访问假设空间时,语言模型开始表现出类似于可疑巧合的效果,有时甚至表现出与人类一致的效果。我们的研究表明,通过显式访问假设空间,可以增强语言模型中的归纳推理行为。

🔬 方法详解

问题定义:论文旨在研究语言模型是否具备人类在归纳推理中对“可疑巧合”的敏感性。现有语言模型在零样本学习中,可能无法有效利用数据中的隐含信息,导致推理结果与人类直觉不符。例如,给定{奥斯汀,达拉斯,休斯顿},模型可能无法像人类一样优先推断其类别为“德克萨斯州城市”。

核心思路:论文的核心思路是通过设计特定的任务,模拟人类在面对“可疑巧合”时的推理过程,并观察语言模型的行为。通过对比模型在不同提示方式下的表现,评估其对“可疑巧合”的敏感程度。如果模型能够像人类一样,优先选择更具体的假设,则表明其具备一定的“可疑巧合”推理能力。

技术框架:论文的技术框架主要包括以下几个部分:1)设计数字游戏和城市选择任务,构建包含多个兼容假设的数据集;2)选择多个预训练语言模型作为实验对象;3)采用零样本学习、思维链提示、显式提示等多种方式,引导模型进行推理;4)分析模型的输出结果,评估其对“可疑巧合”的敏感程度,并与人类行为进行对比。

关键创新:论文的关键创新在于:1)首次将“可疑巧合”这一概念引入到语言模型的研究中,为评估模型的归纳推理能力提供了一个新的视角;2)通过设计特定的任务和提示方式,有效地激发了语言模型在“可疑巧合”场景下的推理能力;3)揭示了语言模型在零样本学习中对“可疑巧合”不敏感,但可以通过提示工程进行改善的现象。

关键设计:在数字游戏中,论文设计了不同的数字列表,例如{16, 32, 2},并要求模型判断某个数字(例如4)是否属于该列表。在城市选择任务中,论文选择了多个城市列表,例如{奥斯汀,达拉斯,休斯顿},并要求模型推断这些城市所属的类别。论文采用了不同的提示方式,包括零样本学习、思维链提示(例如,逐步解释推理过程)、显式提示(例如,明确给出所有可能的假设),以观察模型在不同条件下的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,语言模型在零样本学习中对“可疑巧合”不敏感。然而,通过引入思维链提示或显式提示,可以显著提升模型对“可疑巧合”的利用能力,使其表现出与人类更一致的推理行为。这表明,通过合适的提示工程,可以有效增强语言模型的归纳推理能力。

🎯 应用场景

该研究成果可应用于提升语言模型的常识推理能力和决策能力。通过增强模型对数据采样方式的理解,使其在面对不确定性时能够做出更合理的判断。例如,在推荐系统中,可以利用“可疑巧合”效应,更准确地预测用户的兴趣偏好。

📄 摘要(原文)

Humans are sensitive to suspicious coincidences when generalizing inductively over data, as they make assumptions as to how the data was sampled. This results in smaller, more specific hypotheses being favored over more general ones. For instance, when provided the set {Austin, Dallas, Houston}, one is more likely to think that this is sampled from "Texas Cities" over "US Cities" even though both are compatible. Suspicious coincidence is strongly connected to pragmatic reasoning, and can serve as a testbed to analyze systems on their sensitivity towards the communicative goals of the task (i.e., figuring out the true category underlying the data). In this paper, we analyze whether suspicious coincidence effects are reflected in language models' (LMs) behavior. We do so in the context of two domains: 1) the number game, where humans made judgments of whether a number (e.g., 4) fits a list of given numbers (e.g., 16, 32, 2); and 2) by extending the number game setup to prominent cities. For both domains, the data is compatible with multiple hypotheses and we study which hypothesis is most consistent with the models' behavior. On analyzing five models, we do not find strong evidence for suspicious coincidences in LMs' zero-shot behavior. However, when provided access to the hypotheses space via chain-of-thought or explicit prompting, LMs start to show an effect resembling suspicious coincidences, sometimes even showing effects consistent with humans. Our study suggests that inductive reasoning behavior in LMs can be enhanced with explicit access to the hypothesis landscape.