Emergent Bayesian Behaviour and Optimal Cue Combination in LLMs

📄 arXiv: 2512.02719v1 📥 PDF

作者: Julian Ma, Jun Wang, Zafeirios Fountas

分类: cs.CL, cs.AI, cs.CV, cs.LG, q-bio.NC

发布日期: 2025-12-02


💡 一句话要点

提出BayesBench基准测试,评估LLM在多模态感知任务中的贝叶斯行为和最优线索组合能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多模态学习 贝叶斯推理 心理物理学 不确定性处理

📋 核心要点

  1. 现有LLM评估侧重于显式推理,忽略了其在处理不确定性和进行最优线索组合方面的隐式计算策略。
  2. 提出BayesBench基准测试,通过心理物理学范式,评估LLM在多模态感知任务中的贝叶斯行为。
  3. 实验表明,高准确率并不保证LLM具有鲁棒的不确定性处理能力,揭示了能力和策略之间的分离。

📝 摘要(中文)

大型语言模型(LLM)擅长显式推理,但其隐式计算策略仍未被充分探索。心理物理学研究表明,人类在感知任务中能以接近最优的贝叶斯策略直观地处理和整合噪声信号。本文探讨LLM是否表现出类似的行为,并在没有显式训练或指导的情况下执行最优的多模态整合。通过心理物理学范式,从系统的行为研究中推断LLM的计算原理。我们引入了一个行为基准测试——BayesBench:四个幅度估计任务(长度、位置、距离和持续时间),涵盖文本和图像,灵感来自经典的心理物理学。我们评估了九个不同的LLM,并与人类判断进行校准。通过对噪声、上下文和指令提示的受控消融,我们测量了多模态线索组合中的性能、行为和效率。除了准确性和效率指标外,我们还引入了贝叶斯一致性评分,该评分可以检测贝叶斯一致的行为变化,即使在准确性饱和时也是如此。结果表明,虽然有能力的模型通常以贝叶斯一致的方式进行调整,但准确性并不能保证鲁棒性。值得注意的是,GPT-5 Mini实现了完美的文本准确性,但未能有效地整合视觉线索。这揭示了能力和策略之间的关键分离,表明以准确性为中心的基准测试可能过度关注性能,而忽略了脆弱的不确定性处理。这些发现揭示了对不确定性的新兴原则性处理,并强调了准确性和贝叶斯倾向之间的相关性。我们发布了我们的心理物理学基准测试和一致性指标(https://bayes-bench.github.io)作为评估工具,并为未来的多模态架构设计提供信息。

🔬 方法详解

问题定义:现有的大型语言模型评估方法主要集中在模型的显式推理能力,例如回答问题、生成文本等。然而,对于模型如何处理不确定性、如何整合来自不同模态的信息(例如文本和图像)并做出最优决策,缺乏深入的理解和评估。现有的评估方法往往侧重于准确率等指标,而忽略了模型在面对噪声数据或冲突信息时的鲁棒性和一致性。

核心思路:本文的核心思路是借鉴心理物理学中的研究范式,通过设计一系列感知任务,来评估LLM在处理不确定性信息时的行为是否符合贝叶斯最优策略。心理物理学研究表明,人类在感知任务中能够直观地整合来自不同来源的噪声信号,并做出接近最优的决策。如果LLM也能够表现出类似的行为,则表明其具有一定的隐式贝叶斯推理能力。

技术框架:本文提出了一个名为BayesBench的基准测试,包含四个幅度估计任务:长度、位置、距离和持续时间。这些任务涵盖了文本和图像两种模态。研究人员通过控制噪声、上下文和指令提示等因素,来观察LLM在不同条件下的表现。除了传统的准确率和效率指标外,本文还引入了一个贝叶斯一致性评分,用于检测LLM在行为上的贝叶斯一致性变化。整体流程包括:1) 设计心理物理学任务;2) 在LLM上执行任务;3) 测量准确率、效率和贝叶斯一致性;4) 分析结果,评估LLM的贝叶斯行为。

关键创新:本文最重要的技术创新点在于将心理物理学的研究范式引入到LLM的评估中,并提出了贝叶斯一致性评分这一新的评估指标。与传统的准确率指标相比,贝叶斯一致性评分能够更敏感地捕捉到LLM在处理不确定性信息时的行为变化,即使在准确率饱和的情况下也能有效。这使得研究人员能够更深入地理解LLM的隐式计算策略,并发现其在不确定性处理方面的潜在缺陷。

关键设计:在BayesBench基准测试中,关键的设计包括:1) 精心设计的心理物理学任务,能够有效地诱导出LLM的感知行为;2) 对噪声、上下文和指令提示等因素的精细控制,能够系统地研究LLM在不同条件下的表现;3) 贝叶斯一致性评分的定义,能够量化LLM在行为上的贝叶斯一致性。具体参数设置和网络结构取决于所评估的LLM模型,本文主要关注的是模型的行为表现,而不是模型的具体实现细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然一些LLM在文本任务中表现出很高的准确率,但在整合视觉线索时效率较低,甚至未能表现出贝叶斯一致的行为。例如,GPT-5 Mini在文本准确率上表现完美,但在视觉线索整合方面表现不佳。这表明准确率并不能完全反映LLM在不确定性处理方面的能力,需要更全面的评估指标。

🎯 应用场景

该研究成果可应用于提升LLM在多模态环境下的鲁棒性和可靠性,例如在自动驾驶、医疗诊断等需要处理不确定信息的领域。通过BayesBench基准测试,可以评估和改进LLM在感知和决策方面的能力,使其更好地适应真实世界的复杂场景。

📄 摘要(原文)

Large language models (LLMs) excel at explicit reasoning, but their implicit computational strategies remain underexplored. Decades of psychophysics research show that humans intuitively process and integrate noisy signals using near-optimal Bayesian strategies in perceptual tasks. We ask whether LLMs exhibit similar behaviour and perform optimal multimodal integration without explicit training or instruction. Adopting the psychophysics paradigm, we infer computational principles of LLMs from systematic behavioural studies. We introduce a behavioural benchmark - BayesBench: four magnitude estimation tasks (length, location, distance, and duration) over text and image, inspired by classic psychophysics, and evaluate a diverse set of nine LLMs alongside human judgments for calibration. Through controlled ablations of noise, context, and instruction prompts, we measure performance, behaviour and efficiency in multimodal cue-combination. Beyond accuracy and efficiency metrics, we introduce a Bayesian Consistency Score that detects Bayes-consistent behavioural shifts even when accuracy saturates. Our results show that while capable models often adapt in Bayes-consistent ways, accuracy does not guarantee robustness. Notably, GPT-5 Mini achieves perfect text accuracy but fails to integrate visual cues efficiently. This reveals a critical dissociation between capability and strategy, suggesting accuracy-centric benchmarks may over-index on performance while missing brittle uncertainty handling. These findings reveal emergent principled handling of uncertainty and highlight the correlation between accuracy and Bayesian tendencies. We release our psychophysics benchmark and consistency metric (https://bayes-bench.github.io) as evaluation tools and to inform future multimodal architecture designs.