NEX: Neuron Explore-Exploit Scoring for Label-Free Chain-of-Thought Selection and Model Ranking

作者: Kang Chen, Zhuoka Feng, Sihan Zhao, Kai Xiong, Junjie Nian, Yaoning Wang, Changyi Xiao, Yixin Cao

分类: cs.AI

发布日期: 2026-02-05

备注: 21 pages, 9 figures, 5 tables

💡 一句话要点

NEX：基于神经元探索-利用评分的无标签CoT选择与模型排序

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 无监督学习 神经元激活 模型选择 模型排序

📋 核心要点

现有CoT选择方法缺乏对目标分布的监督，导致探索过度和过度思考。
NEX框架将推理过程分解为探索（E）和利用（X）阶段，通过神经元激活模式进行无监督评分。
实验表明，NEX能够有效预测模型准确率并识别更优模型变体，无需任务标签。

📝 摘要（中文）

大型语言模型越来越多地花费推理计算资源来采样多个思维链（Chain-of-Thought, CoT）轨迹或搜索合并后的检查点。这使得瓶颈从生成转移到选择，而通常缺乏对目标分布的监督。我们发现，基于熵的探索代理与准确率呈现倒U型关系，表明额外的探索可能会变得冗余并导致过度思考。我们提出了NEX，一个白盒无标签的无监督评分框架，它将推理视为交替的E阶段（探索）和X阶段（利用）。NEX通过稀疏激活缓存检测E阶段，表现为每个token新激活的MLP神经元的峰值，然后使用粘性两状态隐马尔可夫模型（HMM）来推断E-X阶段，并通过E阶段引入的神经元是否在后续X阶段被重用来评估其价值。这些信号产生了可解释的神经元权重和一个单一的Good-Mass Fraction分数，用于在没有任务答案的情况下对候选响应和合并变体进行排序。在推理基准和Qwen3合并系列中，基于小型未标记激活集计算的NEX能够预测下游准确率并识别更好的变体；我们进一步通过人工标注验证了E-X信号，并通过“有效与冗余”神经元转移提供了因果证据。

🔬 方法详解

问题定义：现有的大型语言模型推理过程中，为了提高性能，通常会生成多个CoT轨迹或搜索合并后的检查点。然而，如何有效地从这些候选结果中选择最佳答案成为了新的瓶颈。现有的选择方法往往缺乏对目标分布的监督，容易出现探索过度，导致模型“过度思考”，反而降低了准确率。因此，如何在没有标签的情况下，有效地评估和选择最佳的CoT结果或模型变体，是一个亟待解决的问题。

核心思路：NEX的核心思路是将大型语言模型的推理过程视为一个交替进行的探索（E）和利用（X）过程。探索阶段对应于模型尝试新的推理路径，激活新的神经元；利用阶段对应于模型巩固已有的推理路径，重复使用已激活的神经元。通过分析神经元的激活模式，可以推断出E-X阶段，并评估每个神经元对最终结果的贡献。

技术框架：NEX框架主要包含以下几个模块：1) 神经元激活缓存：记录模型推理过程中每个token激活的神经元。2) E-X阶段推断：通过检测每个token新激活的MLP神经元的峰值来识别E阶段，然后使用粘性两状态隐马尔可夫模型（HMM）来推断E-X阶段。3) 神经元评分：根据神经元在E阶段被引入，并在后续X阶段被重用的情况，对神经元进行评分。4) Good-Mass Fraction (GMF) 计算：基于神经元权重计算一个单一的GMF分数，用于对候选响应和模型变体进行排序。

关键创新：NEX的关键创新在于提出了一个无标签的、基于神经元激活模式的E-X阶段推断方法。与传统的基于熵的探索代理不同，NEX能够更准确地捕捉模型推理过程中的探索和利用行为，并根据神经元的贡献进行评分。这种方法不需要任何标签数据，就可以有效地评估和选择最佳的CoT结果或模型变体。

关键设计：NEX的关键设计包括：1) 使用稀疏激活缓存来减少计算量。2) 使用粘性HMM来平滑E-X阶段的推断结果。3) 根据神经元在E阶段的引入和在X阶段的重用情况来评估神经元的贡献。4) 使用Good-Mass Fraction (GMF) 作为最终的评分指标，GMF越高，表示模型性能越好。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在推理基准和Qwen3合并系列中，基于小型未标记激活集计算的NEX能够有效预测下游准确率并识别更好的变体。通过人工标注验证了E-X信号的有效性，并通过“有效与冗余”神经元转移提供了因果证据。这些结果表明，NEX是一种有效的无标签CoT选择和模型排序方法。

🎯 应用场景

NEX可应用于各种需要从多个候选答案中选择最佳答案的场景，例如思维链推理、模型合并等。它能够帮助研究人员和开发者在没有标签数据的情况下，快速评估和选择最佳的模型变体，从而加速模型开发和优化过程。此外，NEX还可以用于分析模型的推理过程，帮助人们更好地理解大型语言模型的工作原理。

📄 摘要（原文）

Large language models increasingly spend inference compute sampling multiple chain-of-thought traces or searching over merged checkpoints. This shifts the bottleneck from generation to selection, often without supervision on the target distribution. We show entropy-based exploration proxies follow an inverted-U with accuracy, suggesting extra exploration can become redundant and induce overthinking. We propose NEX, a white-box label-free unsupervised scoring framework that views reasoning as alternating E-phase (exploration) and X-phase (exploitation). NEX detects E-phase as spikes in newly activated MLP neurons per token from sparse activation caches, then uses a sticky two-state HMM to infer E-X phases and credits E-introduced neurons by whether they are reused in the following X span. These signals yield interpretable neuron weights and a single Good-Mass Fraction score to rank candidate responses and merged variants without task answers. Across reasoning benchmarks and Qwen3 merge families, NEX computed on a small unlabeled activation set predicts downstream accuracy and identifies better variants; we further validate the E-X signal with human annotations and provide causal evidence via "Effective-vs-Redundant" neuron transfer.

NEX: Neuron Explore-Exploit Scoring for Label-Free Chain-of-Thought Selection and Model Ranking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理