Hypothesis generation and updating in large language models

📄 arXiv: 2605.05851v1 📥 PDF

作者: Hua-Dong Xiong

分类: cs.LG

发布日期: 2026-05-07


💡 一句话要点

通过数论游戏探究大语言模型的假设生成与更新机制及其贝叶斯推理偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 贝叶斯推理 认知科学 假设生成 归纳推理 模型评估

📋 核心要点

  1. 核心问题:LLMs在处理需要假设生成与动态更新的推理任务时,其内在推理机制及其与最优贝叶斯模型的偏差尚不明确。
  2. 方法要点:利用数论游戏作为受控实验环境,通过后验预测、假设评估与生成三种探针,量化分析LLMs的推理行为与贝叶斯模型的拟合度。
  3. 实验或效果:揭示了LLMs存在“评估-生成”差距及泛化局限,指出其在处理超出观测数据范围的科学推理任务时表现出显著的局限性。

📝 摘要(中文)

大语言模型(LLMs)在代码调试和机械维修等问题解决任务中表现日益突出,这要求模型能够根据部分描述生成合理假设,并随信息更新进行调整。然而,LLMs执行此类推理的机制及其与最优推理的接近程度尚不明确。本文在数论游戏(Number Game)这一受控环境下,通过后验预测、假设评估和假设生成三种互补探针,测量了LLMs的假设后验分布。研究发现,LLMs的行为可由带偏差的贝叶斯模型描述:模型默认表现出强采样假设(Strong Sampling),具有隐含的奥卡姆剃刀倾向,偏好更窄的假设;而思维模式的切换则使其更依赖先验。此外,研究揭示了评估与生成之间的差距,并指出LLMs在未覆盖数据域的泛化能力上存在局限,这对科学推理等需要超越数据本身的任务提出了挑战。

🔬 方法详解

问题定义:论文旨在探究大语言模型在面对不确定性信息时,如何进行假设生成与更新。现有研究多关注LLM的输出结果,而缺乏对其内部推理逻辑是否符合贝叶斯最优性(Bayesian optimality)的深入剖析。

核心思路:通过经典的数论游戏(Number Game)构建受控实验,将LLM的推理过程映射为贝叶斯框架下的后验分布更新。通过对比LLM、人类行为与最优贝叶斯模型,识别模型在推理过程中的系统性偏差。

技术框架:研究采用三种互补探针:1. 后验预测(给定示例预测下一个数);2. 假设评估(对给定规则的合理性打分);3. 假设生成(直接列举可能的规则)。通过这三种方式全面刻画模型对假设空间的概率分布。

关键创新:首次量化了LLM在推理中的“强采样假设”倾向,即模型倾向于认为观测数据是从特定规则中生成的,从而产生隐含的奥卡姆剃刀效应,偏好更简单的规则。同时揭示了模型在评估与生成任务上的不一致性。

关键设计:引入双参数贝叶斯拟合模型,通过调整先验权重与采样假设强度,量化LLM的推理偏差。实验设计涵盖了从简单规则到复杂区间的多种数论模式,以测试模型在不同假设空间下的泛化表现。

📊 实验亮点

实验发现LLMs在假设评估任务中表现出较高的准确性,但在假设生成任务中倾向于输出过于简单的规则,存在显著的“评估-生成”差距。此外,模型在处理未覆盖数据域时泛化能力较差,证明了其贝叶斯推理模式在处理超出训练分布的科学假设时存在系统性局限,无法完全替代人类的归纳推理。

🎯 应用场景

该研究对提升LLMs在科学发现、医疗诊断和复杂工程故障排查等领域的应用具有重要意义。通过理解模型的推理偏差,开发者可以设计更有效的提示工程(Prompt Engineering)或微调策略,引导模型在面对稀疏数据时做出更符合逻辑的科学推断,减少因过度拟合观测数据而导致的泛化错误。

📄 摘要(原文)

Large language models (LLMs) increasingly help people solve problems, from debugging code to repairing machinery. This process requires generating plausible hypotheses from partial descriptions, then updating them as more information arrives. Yet how LLMs perform this form of inference, and how close it is to optimal, remains unclear. We study this question in the number game, a controlled setting in which a learner infers the hypothesis supported by a few positive integers, such as ${16, 8, 2, 64}$: a rule like powers of 2 or an interval like numbers near 20. We measure the posterior over hypotheses using three complementary probes: posterior prediction, hypothesis evaluation, and hypothesis generation. We then compare LLM behavior with an optimal Bayesian model and human behavior, and test whether the same posterior is expressed across probes. LLMs are often well described by a two-parameter Bayesian fit, but with systematic offsets: by default they show a strong-sampling assumption that creates an implicit Occam's razor, favoring narrower hypotheses, while thinking mode shifts them toward greater prior reliance. We also find a robust evaluation--generation gap: LLMs select more correct hypotheses during hypothesis evaluation but generate simpler, more rule-like hypotheses. Finally, this Bayesian-with-bias pattern does not extrapolate. Models can behave as if they hold rule-like hypotheses over observed examples, yet generalize poorly to parts of the hypothesis domain not covered by those examples. Our results highlight a limitation of LLMs as general problem solvers, especially for scientific inference, where hypotheses must go beyond the data.