Correctness-Optimized Residual Activation Lens (CORAL): Transferrable and Calibration-Aware Inference-Time Steering

作者: Miranda Muqing Miao, Young-Min Cho, Lyle Ungar

分类: cs.LG, cs.AI

发布日期: 2026-02-05

💡 一句话要点

提出CORAL，通过优化残差激活透镜提升LLM推理时校准性和准确率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理时引导 校准 正确性优化 残差激活 MLP探针 可迁移性

📋 核心要点

大型语言模型存在校准误差，且重新训练成本高昂，推理时引导是轻量级替代方案，但现有方法优化的是正确性的代理指标。
CORAL通过权重衰减MLP探针，从模型内部激活中捕获分布式正确性信号，实现正则化的推理时引导。
实验表明，CORAL在多个7B模型上显著提升了准确率和校准性，且增益可迁移至其他基准测试集。

📝 摘要（中文）

大型语言模型（LLMs）表现出持续的校准误差，尤其是在指令调优和偏好对齐之后。改进的训练目标可以提高校准性，但重新训练成本高昂。推理时引导提供了一种轻量级的替代方案，但大多数现有方法优化的是正确性的代理，而不是正确性本身。我们引入了CORAL（Correctness-Optimized Residual Activation Lens），这是一种正则化的推理时引导方法，它使用权重衰减MLP探针从模型内部激活中捕获分布式正确性信号。我们评估了CORAL在三个7B参数模型上的性能，发现它始终将准确率平均提高10％，并将预期校准误差（ECE）平均降低50％。此外，我们还证明了这些增益无需重新训练即可转移到四个保留基准测试（ARC-Challenge，HellaSwag，Math-MC，OpenBookQA）的完整已发布测试集，平均准确率提高14％，ECE提高49％。我们的结果支持了这样的假设，即当单个神经元不足时，可以使用正则化探针提取模型内部的分布式信息。因此，CORAL提供了一种计算高效、可转移且具有校准意识的方法，可在推理过程中提高MCQA性能。

🔬 方法详解

问题定义：大型语言模型在指令调优和偏好对齐后，校准误差问题变得更加突出。现有的推理时引导方法通常优化的是与正确性相关的代理指标，而非直接优化正确性，导致性能提升受限。此外，重新训练模型以改善校准性成本高昂，缺乏效率。

核心思路：CORAL的核心思路是利用模型内部激活中蕴含的分布式正确性信号，通过训练轻量级的MLP探针来提取这些信号，并以此引导模型的推理过程。这种方法避免了重新训练整个模型，降低了计算成本，同时直接优化正确性，提升了模型性能。

技术框架：CORAL的技术框架主要包括以下几个步骤：1) 从模型的中间层提取激活值；2) 使用权重衰减的MLP作为探针，学习激活值与正确性之间的映射关系；3) 在推理时，利用训练好的探针预测的正确性信号，对模型的激活值进行调整，从而引导模型的输出。整体流程简单高效，易于实现。

关键创新：CORAL的关键创新在于它直接优化正确性，而非代理指标。通过正则化的MLP探针，CORAL能够有效地提取模型内部的分布式正确性信号，并将其用于推理时引导。此外，CORAL具有良好的可迁移性，无需针对特定任务进行重新训练。

关键设计：CORAL的关键设计包括：1) 使用权重衰减来正则化MLP探针，防止过拟合；2) 选择合适的模型中间层作为激活值提取的位置，以最大化正确性信号的捕获；3) 设计合适的损失函数，以优化探针的性能。具体的参数设置需要根据不同的模型和任务进行调整。

🖼️ 关键图片

📊 实验亮点

CORAL在三个7B参数模型上进行了评估，结果显示，它能够将准确率平均提高10％，并将预期校准误差（ECE）平均降低50％。更重要的是，这些性能提升可以迁移到四个未见过的基准测试集（ARC-Challenge, HellaSwag, Math-MC, OpenBookQA），平均准确率提高14％，ECE提高49％。这表明CORAL具有良好的泛化能力和实用价值。

🎯 应用场景

CORAL可广泛应用于需要高准确率和良好校准性的大型语言模型应用场景，例如问答系统、对话生成、文本摘要等。该方法尤其适用于计算资源有限，无法进行大规模重新训练的场景。CORAL的迁移能力使其能够快速适应新的任务和数据集，降低了部署成本，具有重要的实际应用价值。

📄 摘要（原文）

Large language models (LLMs) exhibit persistent miscalibration, especially after instruction tuning and preference alignment. Modified training objectives can improve calibration, but retraining is expensive. Inference-time steering offers a lightweight alternative, yet most existing methods optimize proxies for correctness rather than correctness itself. We introduce CORAL (Correctness-Optimized Residual Activation Lens), a regularized inference-time steering method that captures distributed correctness signals from model internal activations using weight-decay MLP probes. We evaluate CORAL across three 7B-parameter models and find that it consistently improves accuracy by 10\% and expected calibration error (ECE) by 50\% on average. We additionally demonstrate that these gains transfer without retraining to the complete published test sets of four held-out benchmarks (ARC-Challenge, HellaSwag, Math-MC, OpenBookQA), averaging 14\% accuracy improvements and 49\% ECE improvements. Our results support the hypothesis that distributed information in model internals can be extracted using regularized probes when individual neurons are insufficient. CORAL thus provides a compute-efficient, transferable, and calibration-aware approach to improve MCQA performance during inference.

Correctness-Optimized Residual Activation Lens (CORAL): Transferrable and Calibration-Aware Inference-Time Steering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理