A Held-Out Transition-Pair Falsifier for Long-Horizon Non-Abelian State Tracking

📄 arXiv: 2606.07254v1 📥 PDF

作者: Jeonghoon Lee

分类: cs.LG, cs.FL

发布日期: 2026-06-05

备注: Technical preprint, 24 pages. 7 figures


💡 一句话要点

提出持出转换对伪造器以解决长时间非阿贝尔状态跟踪问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 状态跟踪 非阿贝尔群 序列模型 投影递归模型 长时间序列 机器学习 动态系统

📋 核心要点

  1. 现有的序列模型在状态跟踪中存在局限,无法有效处理非交换变换的有序潜在状态。
  2. 本文提出了一种持出转换对伪造器,通过禁止特定生成器对来增强模型的学习能力,避免直接记忆路径。
  3. 在 $S_3 imes S_3$ 基准测试中,所提模型在长达1,048,576个标记的评估中实现了完美的状态预测,显著优于传统基线。

📝 摘要(中文)

状态跟踪暴露了序列模型的一个明显局限性:相关信号往往不是观察到的标记的总结,而是通过非交换变换演变的有序潜在状态。本文引入了一种用于有限非阿贝尔群跟踪的持出转换对伪造器。该协议在训练期间禁止选择的有序生成器对,并要求在评估期间保持相同的局部模式,从而阻止了一条直接的局部转换记忆路径。在受控的 $S_3 imes S_3$ 基准测试中,仅在长度为8的序列上训练的投影递归状态模型在评估高达1,048,576个标记的多个种子中产生了无误差的最终状态预测。与之匹配的基线模型在相同协议下表现接近底线。机制诊断表明,硬投影与低同态误差、低状态一致性漂移和非平凡的对易子分离相一致,而软投影则导致最终状态准确性下降。

🔬 方法详解

问题定义:本文旨在解决序列模型在长时间非阿贝尔状态跟踪中的局限性,现有方法无法有效捕捉非交换变换的有序潜在状态,导致预测准确性不足。

核心思路:提出的持出转换对伪造器通过在训练期间禁止特定的生成器对,迫使模型学习更复杂的状态转换模式,从而增强其对长时间序列的跟踪能力。

技术框架:整体架构包括数据预处理、模型训练和评估三个主要阶段。在训练阶段,模型仅使用长度为8的序列进行学习,而在评估阶段则使用更长的序列进行测试。

关键创新:最重要的技术创新在于引入了持出转换对伪造器,这种方法有效阻止了模型对局部转换的直接记忆,促使其学习更具泛化能力的状态表示。

关键设计:在模型设计中,采用了投影递归状态模型,并通过硬投影来降低同态误差和状态一致性漂移,同时确保最终状态的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提投影递归状态模型在 $S_3 imes S_3$ 基准测试中实现了250/250的完美状态预测,显著优于传统的GRU和结构化状态空间模型,后者在相同协议下的表现接近底线,验证了方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括机器人导航、动态系统控制和复杂事件建模等。通过提高长时间序列的状态跟踪能力,能够在实际应用中实现更高的准确性和可靠性,推动智能系统的进一步发展。

📄 摘要(原文)

State tracking exposes a sharp limitation of sequence models: the relevant signal is often not a summary of observed tokens, but an ordered latent state that evolves through non-commutative transformations. We introduce a held-out transition-pair falsifier for finite non-Abelian group tracking. The protocol forbids selected ordered generator pairs during training and requires the same local patterns during evaluation, blocking one direct local-transition memorization pathway. In a controlled $S_3 \times S_3$ benchmark, a projected recurrent state model trained only on length-8 sequences produces error-free final-state predictions (perfect 250/250 per horizon) through evaluation horizons up to 1,048,576 tokens across five seeds. Matched native-readout baselines, including bag, GRU, and a single-configuration structured state-space model, remain near floor under the same protocol. Projection-matched GRU, structured SSM, and bag baselines equipped with analogous finite-group prototype readouts also remain near chance under the same split. Mechanism diagnostics show that hard projection coincides with low homomorphism error, low state-consistency drift, and non-trivial commutator separation, while softened projection collapses final-state accuracy. Clean-split audits verify zero verbatim reduced-word overlap and zero structural-template overlap between training and evaluation partitions. The evidence is scoped to this controlled finite-group falsifier rather than to a general architecture ranking. Within that regime, explicit projected non-commutative state composition acts as a useful inductive bias for long-horizon hidden-state tracking.