Structural Rigidity and the 57-Token Predictive Window: A Physical Framework for Inference-Layer Governability in Large Language Models
作者: Gregory M. Ruddell
分类: cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出能量基础治理框架以解决大语言模型的可控性问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI安全 大语言模型 推理动态 能量基础治理 约束满足模型 预承诺信号 行为监测 失败模式
📋 核心要点
- 现有的AI安全方法在检测指令调优模型的预承诺信号时存在显著不足,导致无法有效监控模型行为。
- 论文提出了一种能量基础治理框架,连接变换器推理动态与神经计算的约束满足模型,提供新的治理思路。
- 实验结果显示,只有一个模型配置在承诺前展现出预测信号,其余模型表现出不同的失败模式,揭示了规则违反与幻觉的不同检测需求。
📝 摘要(中文)
当前的人工智能安全依赖于行为监测和训练后对齐,但实证测量显示这些方法在大多数指令调优模型中未能产生可检测的预承诺信号。本文提出了一种能量基础治理框架,将变换器推理动态与神经计算的约束满足模型联系起来,并应用于七个模型在五个几何状态下的研究。通过轨迹张力(rho = ||a|| / ||v||),我们在Phi-3-mini-4k-instruct模型中识别出57-token的预承诺窗口。该结果是模型特定、任务特定和配置特定的,表明预承诺信号的存在并非普遍。我们引入了推理行为的五个状态分类,并展示了不同失败模式的检测需求。
🔬 方法详解
问题定义:本文旨在解决大语言模型在推理层面的可控性问题,现有方法在检测预承诺信号时普遍存在失败,无法有效监测模型行为。
核心思路:提出能量基础治理框架,通过连接变换器推理动态与神经计算的约束满足模型,识别模型的推理行为和潜在的失败模式。
技术框架:整体架构包括模型推理动态的监测、轨迹张力的计算以及推理行为的分类,主要模块包括能量不对称度的计算和推理行为的五个状态分类。
关键创新:引入了57-token的预承诺窗口和推理行为的五个状态分类,为理解和监测大语言模型的行为提供了新的视角,显著区别于传统的监测方法。
关键设计:在实验中使用了轨迹张力作为主要指标,设置了多种几何状态以评估模型的推理行为,确保了实验结果的模型特定性和任务特定性。
📊 实验亮点
实验结果显示,在七个模型中,只有一个配置在承诺前展现出预测信号,其余模型表现出沉默失败、迟滞检测或平坦几何,揭示了不同失败模式的检测需求,提供了重要的实证数据支持。
🎯 应用场景
该研究为大语言模型的可控性提供了可测量的框架,具有广泛的应用潜力,尤其在自动化AI系统的部署风险评估和安全监测方面。未来可用于改进AI系统的行为监测和对齐策略,增强其安全性和可靠性。
📄 摘要(原文)
Current AI safety relies on behavioral monitoring and post-training alignment, yet empirical measurement shows these approaches produce no detectable pre-commitment signal in a majority of instruction-tuned models tested. We present an energy-based governance framework connecting transformer inference dynamics to constraint-satisfaction models of neural computation, and apply it to a seven-model cohort across five geometric regimes.Using trajectory tension (rho = ||a|| / ||v||), we identify a 57-token pre-commitment window in Phi-3-mini-4k-instruct under greedy decoding on arithmetic constraint probes. This result is model-specific, task-specific, and configuration-specific, demonstrating that pre-commitment signals can exist but are not universal.We introduce a five-regime taxonomy of inference behavior: Authority Band, Late Signal, Inverted, Flat, and Scaffold-Selective. Energy asymmetry ({\Sigma}\r{ho}_misaligned / {\Sigma}\r{ho}_aligned) serves as a unifying metric of structural rigidity across these regimes.Across seven models, only one configuration exhibits a predictive signal prior to commitment; all others show silent failure, late detection, inverted dynamics, or flat geometry.We further demonstrate that factual hallucination produces no predictive signal across 72 test conditions, consistent with spurious attractor settling in the absence of a trained world-model constraint.These results establish that rule violation and hallucination are distinct failure modes with different detection requirements. Internal geometry monitoring is effective only where resistance exists; detection of factual confabulation requires external verification mechanisms.This work provides a measurable framework for inference-layer governability and introduces a taxonomy for evaluating deployment risk in autonomous AI systems.