I-RAVEN-X: Benchmarking Generalization and Robustness of Analogical and Mathematical Reasoning in Large Language and Reasoning Models

📄 arXiv: 2510.17496v2 📥 PDF

作者: Giacomo Camposampiero, Michael Hersche, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

分类: cs.LG, cs.AI

发布日期: 2025-10-20 (更新: 2025-10-31)

备注: Accepted at the 5th Workshop on Mathematical Reasoning and AI (MATH-AI), NeurIPS 2025


💡 一句话要点

I-RAVEN-X:用于评估LLM/LRM类比和数学推理泛化性与鲁棒性的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 类比推理 数学推理 大型语言模型 大型推理模型 泛化性 鲁棒性 不确定性推理 基准测试

📋 核心要点

  1. 现有LLM和LRM在复杂类比和数学推理中,泛化性和鲁棒性不足,尤其是在不确定性条件下。
  2. I-RAVEN-X基准通过增加操作数复杂度、属性范围和引入感知不确定性来增强评估难度。
  3. 实验表明,LRM在长推理关系和宽属性范围上优于LLM,但在不确定性推理方面仍有显著差距。

📝 摘要(中文)

本文提出了I-RAVEN-X,一个符号基准,旨在评估大型语言模型(LLM)和大型推理模型(LRM)在类比和数学推理中的泛化性和鲁棒性。I-RAVEN-X通过增加操作数的复杂性、属性范围以及引入感知不确定性来扩展I-RAVEN。实验结果表明,与LLM相比,LRM在更长的推理关系和更广的属性范围内分别实现了更高的生产力和系统性。然而,LRM在不确定性下的推理方面仍然面临重大挑战,并且无法有效地探索多个概率结果。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)和大型推理模型(LRM)在处理复杂的类比推理和数学推理问题时,尤其是在存在不确定性的情况下,表现出泛化能力和鲁棒性不足的问题。现有的基准测试可能无法充分评估模型在这些方面的能力,无法有效区分模型在不同推理场景下的性能差异。

核心思路:I-RAVEN-X的核心思路是通过构建一个更具挑战性的符号推理基准,来更全面地评估LLM和LRM的推理能力。该基准通过增加操作数的复杂性、扩大属性范围以及引入感知不确定性,使得推理任务更加复杂和贴近实际应用场景,从而能够更好地衡量模型的泛化性和鲁棒性。

技术框架:I-RAVEN-X的整体框架基于I-RAVEN,但进行了显著的扩展。主要包括以下几个方面:1) 操作数复杂度增加:引入更复杂的数学运算和逻辑关系。2) 属性范围扩大:增加属性的数量和取值范围,使得推理空间更大。3) 引入感知不确定性:在输入数据中引入噪声和模糊性,模拟真实世界中的不确定性。该框架旨在创建一个更具挑战性的推理环境,迫使模型学习更鲁棒的推理策略。

关键创新:I-RAVEN-X的关键创新在于其对不确定性的建模和引入。以往的基准测试通常假设输入数据是清晰和明确的,而I-RAVEN-X通过引入感知不确定性,使得模型需要处理模糊和噪声数据,从而更真实地反映了实际应用场景。此外,I-RAVEN-X还通过增加操作数复杂度和属性范围,提高了推理任务的难度,使得模型需要进行更深入的推理才能得到正确答案。

关键设计:I-RAVEN-X的关键设计包括:1) 不确定性建模:使用概率分布来表示属性值,并引入噪声来模拟感知误差。2) 难度控制:通过调整操作数复杂度、属性范围和不确定性水平来控制推理任务的难度。3) 评估指标:使用准确率、生产力和系统性等指标来评估模型的性能。具体的参数设置和网络结构取决于所使用的LLM或LRM模型,但I-RAVEN-X的设计目标是与各种模型兼容。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LRM在更长的推理关系和更广的属性范围内,相比LLM实现了更高的生产力和系统性。然而,LRM在不确定性下的推理方面仍然面临显著挑战,无法有效探索多个概率结果。这表明现有LRM在处理不确定性推理方面仍有很大的提升空间,I-RAVEN-X可以作为评估和改进这些模型的重要工具。

🎯 应用场景

I-RAVEN-X可用于评估和提升LLM/LRM在需要复杂推理和处理不确定信息的任务中的性能,例如智能决策、自动化问题求解、科学发现等领域。通过该基准,可以推动模型在复杂环境下的推理能力发展,提高其在实际应用中的可靠性和效率,并为未来的模型设计提供指导。

📄 摘要(原文)

We introduce I-RAVEN-X, a symbolic benchmark designed to evaluate generalization and robustness in analogical and mathematical reasoning for Large Language Models (LLMs) and Large Reasoning Models (LRMs). I-RAVEN-X extends I-RAVEN by increasing operand complexity, attribute range, and introducing perceptual uncertainty. Compared to LLMs, empirical results show that LRMs achieve improved productivity and systematicity on longer reasoning relations and wider attribute ranges, respectively. However, LRMs are still significantly challenged by reasoning under uncertainty and cannot effectively explore multiple probabilistic outcomes.