Can Large Reasoning Models do Analogical Reasoning under Perceptual Uncertainty?

📄 arXiv: 2503.11207v2 📥 PDF

作者: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

分类: cs.AI, cs.LG

发布日期: 2025-03-14 (更新: 2025-06-04)

备注: Accepted at the 19th International Conference on Neural-Symbolic Learning and Reasoning (NeSy) 2025

🔗 代码/项目: GITHUB


💡 一句话要点

评估大型推理模型在感知不确定性下的类比推理能力,发现其鲁棒性不足

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 类比推理 大型推理模型 感知不确定性 鲁棒性 Raven渐进矩阵

📋 核心要点

  1. 现有大型推理模型在理想视觉条件下表现良好,但在感知不确定性下,其类比推理能力面临挑战。
  2. 通过引入混淆属性和平滑属性值分布,模拟了现实世界中不完美的视觉感知,更真实地评估模型性能。
  3. 实验表明,大型推理模型在感知不确定性下准确率显著下降,而神经符号模型表现出更强的鲁棒性。

📝 摘要(中文)

本研究首次评估了两个最先进的大型推理模型(LRM):OpenAI的o3-mini和DeepSeek R1在类比推理方面的能力,重点关注基于Raven渐进矩阵的成熟的非语言人类智商测试。我们使用I-RAVEN数据集及其扩展I-RAVEN-X进行基准测试,后者测试模型推广到更长的推理规则和属性值范围的能力。为了评估视觉不确定性对这些符号类比推理测试的影响,我们扩展了I-RAVEN-X数据集,该数据集原本假设完美的感知。我们采用双重策略来模拟这种不完美的视觉感知:1)引入混淆属性,这些属性是随机采样的,对谜题正确答案的预测没有贡献;2)平滑输入属性值的分布。我们观察到OpenAI的o3-mini任务准确率急剧下降,从原始I-RAVEN上的86.6%下降到更具挑战性的I-RAVEN-X上的17.0%——接近随机概率,后者增加了输入长度和范围,并模拟了感知不确定性。尽管花费了3.4倍的推理token,但仍然发生了这种下降。DeepSeek R1也观察到类似的趋势:从80.6%降至23.2%。另一方面,神经符号概率推理模型ARLC在I-RAVEN上实现了最先进的性能,可以在所有这些分布外测试中稳健地进行推理,保持强大的准确性,仅从98.6%略微降低到88.0%。我们的代码可在https://github.com/IBM/raven-large-language-models上找到。

🔬 方法详解

问题定义:论文旨在评估大型推理模型(LRMs)在感知不确定性下的类比推理能力。现有方法通常假设完美的视觉感知,忽略了现实世界中视觉信息的不确定性和噪声,导致模型在实际应用中性能下降。I-RAVEN数据集虽然被广泛使用,但缺乏对感知不确定性的模拟,无法全面评估模型的鲁棒性。

核心思路:论文的核心思路是通过扩展I-RAVEN数据集,引入混淆属性和平滑属性值分布,来模拟不完美的视觉感知。这种方法旨在更真实地反映现实世界中的视觉信息,从而更准确地评估LRMs在感知不确定性下的类比推理能力。通过对比LRMs和神经符号模型在扩展数据集上的性能,可以揭示LRMs在鲁棒性方面的不足。

技术框架:论文的技术框架主要包括以下几个部分:1) 使用I-RAVEN和I-RAVEN-X数据集作为基准;2) 扩展I-RAVEN-X数据集,引入混淆属性和平滑属性值分布;3) 使用OpenAI的o3-mini和DeepSeek R1作为LRMs进行评估;4) 使用神经符号概率推理模型ARLC作为对比基线;5) 评估不同模型在原始数据集和扩展数据集上的准确率。

关键创新:论文最重要的技术创新点在于对I-RAVEN-X数据集的扩展,通过引入混淆属性和平滑属性值分布来模拟感知不确定性。与现有方法相比,这种方法更真实地反映了现实世界中的视觉信息,从而可以更准确地评估LRMs的鲁棒性。此外,论文还对比了LRMs和神经符号模型在感知不确定性下的性能,揭示了LRMs在鲁棒性方面的不足。

关键设计:在扩展I-RAVEN-X数据集时,论文随机采样混淆属性,确保这些属性与谜题的正确答案无关。同时,论文平滑输入属性值的分布,模拟视觉信息的模糊性。在评估模型性能时,论文使用准确率作为评估指标,并对比不同模型在原始数据集和扩展数据集上的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OpenAI的o3-mini在I-RAVEN上的准确率为86.6%,但在扩展的I-RAVEN-X上降至17.0%,DeepSeek R1也从80.6%降至23.2%。相比之下,神经符号模型ARLC在原始数据集上的准确率为98.6%,在扩展数据集上仅降至88.0%,表现出更强的鲁棒性。这表明大型推理模型在感知不确定性下性能显著下降,而神经符号模型具有更好的泛化能力。

🎯 应用场景

该研究成果可应用于提升人工智能系统在复杂、噪声环境下的推理能力,例如在自动驾驶、机器人导航、医疗诊断等领域。通过提高模型对感知不确定性的鲁棒性,可以增强AI系统在实际应用中的可靠性和安全性。未来的研究可以探索更有效的感知不确定性建模方法,并开发更鲁棒的推理算法。

📄 摘要(原文)

This work presents a first evaluation of two state-of-the-art Large Reasoning Models (LRMs), OpenAI's o3-mini and DeepSeek R1, on analogical reasoning, focusing on well-established nonverbal human IQ tests based on Raven's progressive matrices. We benchmark with the I-RAVEN dataset and its extension, I-RAVEN-X, which tests the ability to generalize to longer reasoning rules and ranges of the attribute values. To assess the influence of visual uncertainties on these symbolic analogical reasoning tests, we extend the I-RAVEN-X dataset, which otherwise assumes an oracle perception. We adopt a two-fold strategy to simulate this imperfect visual perception: 1) we introduce confounding attributes which, being sampled at random, do not contribute to the prediction of the correct answer of the puzzles, and 2) we smoothen the distributions of the input attributes' values. We observe a sharp decline in OpenAI's o3-mini task accuracy, dropping from 86.6% on the original I-RAVEN to just 17.0% -- approaching random chance -- on the more challenging I-RAVEN-X, which increases input length and range and emulates perceptual uncertainty. This drop occurred despite spending 3.4x more reasoning tokens. A similar trend is also observed for DeepSeek R1: from 80.6% to 23.2%. On the other hand, a neuro-symbolic probabilistic abductive model, ARLC, that achieves state-of-the-art performances on I-RAVEN, can robustly reason under all these out-of-distribution tests, maintaining strong accuracy with only a modest accuracy reduction from 98.6% to 88.0%. Our code is available at https://github.com/IBM/raven-large-language-models.