Monitoring the Internal Monologue: Probe Trajectories Reveal Reasoning Dynamics
作者: Maciej Chrabąszcz, Aleksander Szymczyk, Marcin Sendera, Tomasz Trzciński, Sebastian Cygert
分类: cs.CL, cs.CR
发布日期: 2026-05-18
💡 一句话要点
提出探针轨迹以监测大型推理模型的推理动态
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推理模型 监测工具 信号处理 动态分析 模型行为
📋 核心要点
- 现有的思维链推理方法在监测大型推理模型时存在可靠性不足的问题,无法准确反映模型的最终输出。
- 本文提出通过分析探针轨迹来监测推理动态,利用信号处理特征捕捉推理过程中的波动性和趋势。
- 实验结果表明,使用探针轨迹特征可以显著提高模型状态的分离性,最大AUROC达到95%。
📝 摘要(中文)
大型推理模型(LRMs)通过其思维链(CoT)推理为安全监测提供了新机遇。然而,CoT并不总是与模型的最终输出一致,影响其作为监测工具的可靠性。为了解决这一问题,本文研究了LRMs的隐藏表示,以确定是否可以从提示和CoT表示中预测未来行为。通过在每个生成的标记上评估探针,构建了探针轨迹,展示了概念概率在推理过程中的连续演变。研究发现,全面轨迹的分析比单一静态预测更能区分未来模型行为。提取的信号处理特征显著提高了未来模型状态的分离性。
🔬 方法详解
问题定义:本文旨在解决大型推理模型在推理过程中的行为监测问题,现有方法在可靠性和准确性上存在不足,尤其是思维链推理与最终输出不一致的情况。
核心思路:通过构建探针轨迹,分析推理过程中的概念概率演变,以此来预测未来模型行为,提供一种新的监测工具。
技术框架:整体流程包括数据准备、探针评估、轨迹构建和特征提取四个主要模块。首先生成模型输出,然后在每个生成的标记上评估探针,构建轨迹并提取信号处理特征。
关键创新:本文的主要创新在于探针轨迹的引入,提供了一种动态监测模型行为的新方法,与传统静态预测方法相比,能够更好地捕捉推理过程中的变化。
关键设计:在实验中,采用模板化训练数据与动态生成的模型响应进行对比,发现前者几乎达到相同的性能。此外,选择合适的池化操作至关重要,最大池化方法在性能上显著优于平均池化和最后标记方法。
🖼️ 关键图片
📊 实验亮点
实验结果显示,使用探针轨迹特征能够显著提高模型状态的分离性,最大AUROC达到95%。与传统方法相比,探针轨迹在捕捉推理动态方面表现出更高的准确性和稳定性,展示了其作为监测工具的有效性。
🎯 应用场景
该研究的潜在应用领域包括安全监测、智能决策系统和教育领域的自动化评估。通过监测推理动态,可以提高模型的透明度和可解释性,增强用户对AI系统的信任。未来,该方法可能会被广泛应用于需要高可靠性的推理任务中。
📄 摘要(原文)
Large Reasoning Models (LRMs) introduce new opportunities for safety monitoring through their Chain of Thought (CoT) reasoning. However, CoT is not always faithful to the model's final output, undermining its reliability as a monitoring tool. To address this, we investigate the hidden representations of LRMs to determine whether future behavior can be predicted from prompt and CoT representations. By evaluating a probe at each generated token, we construct a probe trajectory, the continuous evolution of a concept's probability across the reasoning process. We find that future model behavior is more distinguishable when examined over the full trajectory than from a single static prediction. To characterize these temporal dynamics, we extract signal-processing features that capture volatility, trend, and steady-state behavior, significantly improving the separation of future model states. We also present two methodological insights. First, template-based training data achieves near-parity with dynamically generated model responses, eliminating the need for a costly initial inference and labeling. Second, the choice of pooling operation is critical: average-pooling and last-token methods collapse to near-random performance, while max-pooling achieves up to 95% AUROC and yields stable probe trajectories. Using four datasets and four reasoning models across the domains of safety and mathematics, we demonstrate that trajectory features encode task-specific dynamics that improve outcome separability. These findings establish probe trajectories as a complementary framework for monitoring LRM behavior. Warning: This article contains potentially harmful content.