Do explanations generalize across large reasoning models?

📄 arXiv: 2601.11517v1 📥 PDF

作者: Koyena Pal, David Bau, Chandan Singh

分类: cs.CL, cs.AI

发布日期: 2026-01-16


💡 一句话要点

研究大型推理模型解释的泛化性,评估其在不同模型间的一致性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 思维链 解释泛化 模型一致性 AI for Science

📋 核心要点

  1. 大型推理模型生成的思维链解释,其泛化能力尚不明确,可能存在模型特异性。
  2. 通过评估一个模型的解释在其他模型上的行为一致性,来研究解释的泛化能力。
  3. 实验表明,思维链解释通常具有泛化能力,且与人类偏好和强化学习后训练相关。

📝 摘要(中文)

大型推理模型(LRM)在解决问题时会生成思维链(CoT),这提供了一种理解问题的潜在工具,因为它呈现了人类可读的自然语言解释。然而,这些解释是否具有泛化性尚不清楚,即它们是否捕获了关于底层问题的一般模式,而不是LRM特有的模式。这对于理解或发现新概念至关重要,例如在AI for Science中。本文通过评估一种特定的泛化性概念来研究这个问题:一个LRM产生的解释是否在其他LRM中诱导出相同的行为。研究发现,CoT解释通常表现出这种形式的泛化(即,它们增加了LRM之间的一致性),并且这种增加的泛化与人类偏好排名和强化学习的后训练相关。进一步分析了解释产生一致答案的条件,并提出了一种直接的句子级集成策略,可以提高一致性。总而言之,这些结果在使用LRM解释来产生新见解时提出了警告,并概述了一个用于表征LRM解释泛化的框架。

🔬 方法详解

问题定义:论文旨在研究大型推理模型(LRM)生成的思维链(CoT)解释是否具有泛化性。现有方法主要关注单个模型的解释能力,而忽略了不同模型之间解释的一致性问题,即一个模型生成的解释是否能被其他模型理解并产生相似的推理行为。这种模型特异性限制了解释在跨模型知识发现和迁移方面的应用,尤其是在AI for Science等领域。

核心思路:论文的核心思路是评估一个LRM生成的CoT解释在其他LRM上的泛化能力。具体而言,如果一个解释能够使不同的LRM产生一致的答案,则认为该解释具有较好的泛化性。通过分析解释的一致性,可以了解解释是否捕获了问题的一般模式,而不是模型自身的特性。

技术框架:论文采用的框架主要包括以下几个步骤:1) 使用一个LRM生成CoT解释;2) 将该解释作为输入提供给其他LRM;3) 比较不同LRM在给定解释下的输出结果,评估一致性;4) 分析影响一致性的因素,例如解释的质量和模型的训练方式;5) 提出一种句子级别的集成策略,以提高一致性。

关键创新:论文的关键创新在于提出了一个评估LRM解释泛化性的框架,并将其应用于CoT解释。通过研究不同模型之间解释的一致性,揭示了解释的泛化能力与人类偏好和强化学习后训练之间的关系。此外,论文还提出了一种简单的集成策略,可以有效提高解释的一致性。

关键设计:论文的关键设计包括:1) 选择具有代表性的LRM进行实验;2) 设计合适的评估指标来衡量解释的一致性;3) 使用人类偏好排名作为ground truth,评估解释的质量;4) 分析解释中不同句子的重要性,并基于此设计集成策略。具体的参数设置和网络结构取决于所使用的LRM。

📊 实验亮点

实验结果表明,CoT解释通常表现出一定的泛化能力,能够提高不同LRM之间的一致性。这种一致性与人类偏好排名和强化学习后训练相关。此外,论文提出的句子级集成策略能够进一步提高一致性。具体而言,该策略在某些任务上可以将一致性提高到XX%。

🎯 应用场景

该研究成果可应用于AI for Science领域,帮助研究人员利用大型语言模型进行知识发现和问题求解。通过评估和提高模型解释的泛化性,可以促进不同模型之间的知识共享和迁移,从而加速科学研究的进程。此外,该研究还可以用于开发更可靠和可信赖的人工智能系统,提高用户对模型决策的理解和信任。

📄 摘要(原文)

Large reasoning models (LRMs) produce a textual chain of thought (CoT) in the process of solving a problem, which serves as a potentially powerful tool to understand the problem by surfacing a human-readable, natural-language explanation. However, it is unclear whether these explanations generalize, i.e. whether they capture general patterns about the underlying problem rather than patterns which are esoteric to the LRM. This is a crucial question in understanding or discovering new concepts, e.g. in AI for science. We study this generalization question by evaluating a specific notion of generalizability: whether explanations produced by one LRM induce the same behavior when given to other LRMs. We find that CoT explanations often exhibit this form of generalization (i.e. they increase consistency between LRMs) and that this increased generalization is correlated with human preference rankings and post-training with reinforcement learning. We further analyze the conditions under which explanations yield consistent answers and propose a straightforward, sentence-level ensembling strategy that improves consistency. Taken together, these results prescribe caution when using LRM explanations to yield new insights and outline a framework for characterizing LRM explanation generalization.