Navigating by Old Maps: The Pitfalls of Static Mechanistic Localization in LLM Post-Training
作者: Hang Chen, Jiaying Zhu, Hongyang Chen, Hongxu Liu, Xinyu Yang, Wenya Wang
分类: cs.CL
发布日期: 2026-05-07
备注: 26 pages
💡 一句话要点
揭示大模型后训练中静态机制定位的局限性,提出电路演化分析框架以应对参数动态更新挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 机械可解释性 监督微调 Transformer电路 模型动力学 参数更新 模型演化
📋 核心要点
- 现有“定位后更新”范式假设静态机制可指导动态更新,但忽略了模型参数演化带来的时间滞后与机制失效问题。
- 本文提出电路距离、稳定性与冲突三个量化指标,系统追踪SFT过程中Transformer电路的结构演化与动力学特征。
- 实验证实电路存在“自由演化”特性,证明了仅依赖当前静态机制进行参数更新的局限性,并呼吁建立具备预见性的定位框架。
📝 摘要(中文)
“定位后更新”(Locate-then-Update)范式已成为大语言模型(LLM)后训练的主流方法,通过机械可解释性识别关键组件进行针对性参数更新。然而,该范式依赖于一个未经证实的假设:从当前静态参数中提取的机制能否可靠地指导未来的动态参数更新?为探究此问题,本文系统追踪了监督微调(SFT)过程中Transformer电路的结构演化,揭示了任务机制的底层动力学。我们引入了电路距离(Circuit Distance)、电路稳定性(Circuit Stability)和电路冲突(Circuit Conflict)三个新指标,从神经迁移、语义稳定性和跨任务干扰三个维度分析电路演化。实证结果表明,电路在参数更新过程中存在“自由演化”现象。因此,从当前状态提取的静态机制不可避免地存在时间滞后,无法有效指导未来状态。本文通过解构现有方法中的“有效性幻觉”,强调了机械定位中“预见性”的必要性,并为未来研究提出了预测性框架。
🔬 方法详解
问题定义:论文旨在解决大模型后训练中“定位后更新”范式的逻辑缺陷。现有方法基于静态参数识别关键电路,但未考虑模型在微调过程中参数权重和内部机制的动态演变,导致定位结果与模型实际状态脱节。
核心思路:论文的核心思路是引入“演化视角”,将模型视为一个动态系统。通过量化分析电路在微调过程中的结构变迁,揭示静态机制提取方法在面对参数更新时的滞后性,从而证明必须引入具备预见性的机制定位策略。
技术框架:研究构建了一个全流程追踪框架,在SFT的多个时间步长上提取Transformer电路。通过对比不同时间点的电路结构,利用三个维度指标评估电路的演化轨迹,并对比不同任务下的电路重叠与冲突情况。
关键创新:最重要的创新在于提出了电路距离、电路稳定性和电路冲突三个量化指标。这些指标首次将机械可解释性从静态分析提升到动态演化分析,揭示了模型内部电路在训练过程中的“自由演化”本质。
关键设计:关键设计在于对电路演化的多维解构:电路距离衡量参数更新导致的结构偏移;电路稳定性评估核心功能组件的存续性;电路冲突则量化了不同任务间对共享参数的竞争与干扰,为后续设计预测性更新算法提供了理论依据。
🖼️ 关键图片
📊 实验亮点
实验通过对SFT全过程的深度追踪,量化了电路演化的非线性特征。结果显示,随着参数更新,模型内部关键电路表现出显著的“自由演化”趋势,静态提取的机制在后续训练步中准确率大幅下降。研究成功解构了现有方法中存在的“有效性幻觉”,为理解模型内部机制的动态不稳定性提供了首个系统性实证证据。
🎯 应用场景
该研究对大模型高效微调(PEFT)、模型编辑及可解释AI(XAI)领域具有重要价值。其研究成果可指导开发者在模型微调时避免盲目定位,通过预测电路演化路径,设计更精准的参数更新策略,从而提升模型在多任务场景下的性能稳定性与可控性。
📄 摘要(原文)
The "Locate-then-Update" paradigm has become a predominant approach in the post-training of large language models (LLMs), identifying critical components via mechanistic interpretability for targeted parameter updates. However, this paradigm rests on a fundamental yet unverified assumption: can mechanisms derived from current static parameters reliably guide future dynamic parameter updates? To investigate this, we systematically track the structural evolution of Transformer circuits throughout the supervised fine-tuning (SFT) process, revealing the underlying dynamics of task mechanisms. We introduce three novel metrics-Circuit Distance, Circuit Stability, and Circuit Conflict-to analyze circuit evolution across three dimensions: neural migration, semantic stability, and cross-task interference. Our empirical results reveal that circuits inherently exhibit "Free Evolution" during parameter updates. Consequently, static mechanisms extracted from current states inevitably suffer from temporal latency, making them fundamentally inadequate for guiding future states. Moreover, by deconstructing the "illusion of effectiveness" in existing methods, this work underscores the necessity of "foresight" in mechanistic localization and proposes a predictive framework for future research.