Benchmarking Reasoning Robustness in Large Language Models

作者: Tong Yu, Yongcheng Jing, Xikun Zhang, Wentao Jiang, Wenjie Wu, Yingjie Wang, Wenbin Hu, Bo Du, Dacheng Tao

分类: cs.AI

发布日期: 2025-03-06

💡 一句话要点

揭示大语言模型推理鲁棒性困境，提出Math-RoB基准进行全面评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理鲁棒性 基准测试 位置偏差 指令敏感性 数值脆弱性 记忆依赖性 Math-RoB

📋 核心要点

现有大语言模型在推理方面表现出色，但面对新数据或不完整信息时，鲁棒性和泛化能力显著下降。
论文核心在于识别并分析大语言模型推理鲁棒性的四个关键局限性：位置偏差、指令敏感性、数值脆弱性和记忆依赖性。
提出了Math-RoB基准，通过生成类似训练分布的数据集，利用缺失信息触发幻觉，全面评估模型的推理鲁棒性。

📝 摘要（中文）

本文首次揭示了大语言模型（LLMs）在推理鲁棒性和泛化能力方面的一个关键困境：在面对新颖或不完整的数据时，性能显著下降，表明模型依赖于记忆模式而非系统推理。研究深入分析了导致此问题的四个关键限制：（1）位置偏差：模型倾向于优先处理多查询输入中较早的查询，但在后者中回答错误；（2）指令敏感性：辅助指导会降低性能；（3）数值脆弱性：数值替换会急剧降低准确性；（4）记忆依赖性：当缺少关键数据时，模型会求助于猜测。这些发现进一步突出了模型对启发式回忆的依赖，而非严格的逻辑推理，揭示了推理鲁棒性方面的挑战。为了全面研究这些鲁棒性挑战，本文引入了一个名为Math-RoB的新基准，该基准利用缺失信息触发的幻觉来暴露推理差距。通过基于指令的方法生成与训练分布非常相似的多样化数据集来实现，从而促进全面的鲁棒性评估，并推进更鲁棒的推理框架的开发。

🔬 方法详解

问题定义：现有的大语言模型在推理任务上取得了显著进展，但它们在面对新颖或不完整的数据时，性能会显著下降。这表明这些模型可能过度依赖于记忆中的模式，而不是进行真正的系统推理。因此，如何评估和提升大语言模型在推理任务中的鲁棒性是一个关键问题。

核心思路：论文的核心思路是识别并分析大语言模型在推理鲁棒性方面的弱点，然后设计一个基准来系统地评估这些弱点。通过分析模型在特定情况下的失败案例，可以更好地理解模型的推理过程，并为改进模型提供指导。

技术框架：论文主要包含两个部分：首先，通过实验分析，揭示了大语言模型在推理鲁棒性方面的四个关键局限性：位置偏差、指令敏感性、数值脆弱性和记忆依赖性。其次，提出了一个新的基准Math-RoB，用于全面评估模型的推理鲁棒性。Math-RoB通过基于指令的方法生成与训练分布相似的数据集，并利用缺失信息来触发幻觉，从而暴露模型的推理差距。

关键创新：论文的关键创新在于首次系统地识别并分析了大语言模型在推理鲁棒性方面的四个关键局限性，并提出了一个专门用于评估推理鲁棒性的新基准Math-RoB。与现有的基准相比，Math-RoB更加关注模型在面对不完整或干扰信息时的表现，能够更全面地评估模型的推理能力。

关键设计：Math-RoB基准的关键设计在于使用基于指令的方法生成数据集，确保数据集的多样性，并使其与训练分布相似。此外，Math-RoB还通过引入缺失信息来触发幻觉，从而暴露模型的推理差距。具体的指令设计和数据生成方法在论文中有详细描述，但具体参数设置和损失函数等细节未知。

🖼️ 关键图片

📊 实验亮点

论文通过实验发现，GPT-4o在多查询输入中，准确率从75.8%下降到72.8%，Qwen2.5 Series和DeepSeek-V3在辅助指导下性能下降5.0%-7.5%和5.0%，GPT-4o和GPT-o1-mini在数值替换后准确率分别从97.5%下降到82.5%和92.5%。这些数据清晰地展示了大语言模型在推理鲁棒性方面的不足。

🎯 应用场景

该研究成果可应用于评估和提升大语言模型在各种实际场景中的可靠性和安全性，例如智能客服、自动驾驶、医疗诊断等。通过提高模型的推理鲁棒性，可以减少模型在面对复杂或不确定信息时的错误率，从而提高系统的整体性能和用户体验。未来的研究可以进一步探索如何利用Math-RoB基准来指导模型的训练和优化。

📄 摘要（原文）

Despite the recent success of large language models (LLMs) in reasoning such as DeepSeek, we for the first time identify a key dilemma in reasoning robustness and generalization: significant performance degradation on novel or incomplete data, suggesting a reliance on memorized patterns rather than systematic reasoning. Our closer examination reveals four key unique limitations underlying this issue:(1) Positional bias--models favor earlier queries in multi-query inputs but answering the wrong one in the latter (e.g., GPT-4o's accuracy drops from 75.8 percent to 72.8 percent); (2) Instruction sensitivity--performance declines by 5.0 to 7.5 percent in the Qwen2.5 Series and by 5.0 percent in DeepSeek-V3 with auxiliary guidance; (3) Numerical fragility--value substitution sharply reduces accuracy (e.g., GPT-4o drops from 97.5 percent to 82.5 percent, GPT-o1-mini drops from 97.5 percent to 92.5 percent); and (4) Memory dependence--models resort to guesswork when missing critical data. These findings further highlight the reliance on heuristic recall over rigorous logical inference, demonstrating challenges in reasoning robustness. To comprehensively investigate these robustness challenges, this paper introduces a novel benchmark, termed as Math-RoB, that exploits hallucinations triggered by missing information to expose reasoning gaps. This is achieved by an instruction-based approach to generate diverse datasets that closely resemble training distributions, facilitating a holistic robustness assessment and advancing the development of more robust reasoning frameworks. Bad character(s) in field Abstract.

Benchmarking Reasoning Robustness in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理