Thinking in a Crowd: How Auxiliary Information Shapes LLM Reasoning

📄 arXiv: 2509.18163v1 📥 PDF

作者: Haodong Zhao, Chenyan Zhao, Yansi Li, Zhuosheng Zhang, Gongshen Liu

分类: cs.CL

发布日期: 2025-09-17

备注: Work in progress

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

研究辅助信息对LLM推理的影响:有害信息会显著降低模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 辅助信息 鲁棒性 数据集 错误信息 思考模式

📋 核心要点

  1. 现有LLM在实际应用中依赖外部信息,但如何保证模型在面对无关或错误信息时的推理能力是一个挑战。
  2. 论文提出通过构建SciAux数据集,系统性地评估辅助信息对LLM推理过程的影响,特别是错误信息的影响。
  3. 实验表明,LLM的“思考模式”在面对误导性信息时会放大错误,而非增强鲁棒性,揭示了LLM推理的脆弱性。

📝 摘要(中文)

大型语言模型(LLM)的推理能力是其在复杂、知识密集型领域应用的基础。在实际场景中,LLM通常会获得外部信息,这些信息可能是有帮助的、无关的,甚至是误导性的。本文研究了这种辅助信息对LLM推理过程的因果影响,特别是当LLM具备显式的逐步思考能力时。我们引入了SciAux,一个从ScienceQA派生的新数据集,以系统地测试模型对这些类型信息的鲁棒性。我们的研究结果揭示了一个关键的弱点:模型具有的“思考模式”是一把双刃剑。有用的上下文可以提高准确性,但误导性信息会导致性能急剧下降,而思考过程会放大这种影响。当提供错误信息时,思考非但没有增强鲁棒性,反而加剧了错误程度。这表明,挑战不仅仅在于让模型“思考”,更在于赋予它们评估推理所依据信息的能力。SciAux数据集可在https://huggingface.co/datasets/billhdzhao/SciAux获取。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在推理过程中,受到辅助信息(包括有益、无关和误导性信息)影响的具体方式和程度。现有方法缺乏对LLM在面对不同类型辅助信息时鲁棒性的系统性评估,尤其是在误导性信息存在的情况下,LLM的推理能力可能会受到严重影响。

核心思路:论文的核心思路是通过构建一个包含不同类型辅助信息的数据集(SciAux),并利用该数据集来评估LLM在推理过程中对这些信息的敏感程度。通过观察LLM在不同辅助信息条件下的性能变化,来分析辅助信息对LLM推理过程的因果影响。

技术框架:论文主要包含以下几个阶段:1) 构建SciAux数据集,该数据集基于ScienceQA,并添加了不同类型的辅助信息;2) 使用LLM(具备显式逐步思考能力)在SciAux数据集上进行推理;3) 分析LLM在不同辅助信息条件下的性能表现,特别是关注误导性信息对性能的影响;4) 评估LLM的鲁棒性,并分析“思考模式”在面对误导性信息时的作用。

关键创新:论文的关键创新在于:1) 提出了SciAux数据集,该数据集专门用于评估辅助信息对LLM推理的影响,特别是误导性信息;2) 揭示了LLM的“思考模式”在面对误导性信息时会放大错误,而非增强鲁棒性,这与直觉相反;3) 强调了评估LLM信息评估能力的重要性,而不仅仅是让模型“思考”。

关键设计:SciAux数据集的设计关键在于对ScienceQA数据集进行改造,添加了不同类型的辅助信息,包括有益信息、无关信息和误导性信息。这些辅助信息与原始问题相关或不相关,并且可能支持或反对正确的答案。论文没有详细说明具体的参数设置、损失函数或网络结构,因为重点在于数据集的构建和实验分析,而不是提出新的模型架构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当提供有益的辅助信息时,LLM的准确率有所提高。然而,当提供误导性信息时,LLM的性能会急剧下降,并且“思考模式”会放大这种负面影响。例如,在SciAux数据集上,LLM在面对误导性信息时的准确率显著低于没有辅助信息的情况,这突显了LLM在信息评估方面的不足。

🎯 应用场景

该研究成果可应用于提升LLM在知识密集型领域的可靠性和安全性。通过提高LLM对辅助信息的辨别能力,可以减少模型在实际应用中因错误信息而导致的决策失误。未来的研究可以探索如何设计更有效的机制,使LLM能够更好地评估和利用外部信息,从而提高其推理的准确性和鲁棒性。

📄 摘要(原文)

The capacity of Large Language Models (LLMs) to reason is fundamental to their application in complex, knowledge-intensive domains. In real-world scenarios, LLMs are often augmented with external information that can be helpful, irrelevant, or even misleading. This paper investigates the causal impact of such auxiliary information on the reasoning process of LLMs with explicit step-by-step thinking capabilities. We introduce SciAux, a new dataset derived from ScienceQA, to systematically test the robustness of the model against these types of information. Our findings reveal a critical vulnerability: the model's deliberative "thinking mode" is a double-edged sword. While helpful context improves accuracy, misleading information causes a catastrophic drop in performance, which is amplified by the thinking process. Instead of conferring robustness, thinking reinforces the degree of error when provided with misinformation. This highlights that the challenge is not merely to make models "think", but to endow them with the critical faculty to evaluate the information upon which their reasoning is based. The SciAux dataset is available at https://huggingface.co/datasets/billhdzhao/SciAux.