Autoregressive Learning in Joint KL: Sharp Oracle Bounds and Lower Bounds
作者: Yunbei Xu, Yuzhe Yuan, Ruohan Zhan
分类: cs.LG
发布日期: 2026-05-12
💡 一句话要点
提出联合KL的自回归学习以解决长序列建模问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自回归建模 联合KL散度 长序列学习 模型误设 信息论下界 近似分析 估计分析
📋 核心要点
- 现有自回归模型在长序列学习中面临模型误设带来的近似和估计误差挑战。
- 论文提出通过联合KL散度来表征长视野下的误差行为,提供了上下界的完整描述。
- 研究结果显示,联合KL的近似因子与Hellinger方法不同,且在估计方面达到了信息论下界。
📝 摘要(中文)
本文研究了在模型误设情况下,自回归建模和下一个标记预测中学习长序列的基本问题,使用联合Kullback-Leibler(KL)散度进行测量。我们的目标是描述序列视野H如何影响该联合分布下的近似和估计误差。通过建立匹配的上下界,我们首次完整表征了自然联合KL目标下的长视野误差行为,相较于现有工作,提供了改进的速率和最优性证明。在近似方面,我们展示了联合KL具有无视野的近似因子,显著不同于基于Hellinger的分析,这种分析表现出Ω(H)的依赖性;在估计方面,我们证明了一个Ω(H)的基本信息论下界,适用于可分解策略类和完全共享策略,匹配了计算高效算法所达到的 ilde O(H)上界。
🔬 方法详解
问题定义:本文解决的是在自回归建模中,如何在模型误设的情况下有效学习长序列的问题。现有方法在处理长序列时,常常面临近似和估计误差的挑战,尤其是在使用Hellinger散度时表现出较大的依赖性。
核心思路:论文的核心思路是利用联合KL散度来分析和优化长序列的学习过程。通过建立上下界,论文展示了在长视野下的误差行为,并提供了更优的近似和估计结果。
技术框架:整体架构包括两个主要模块:近似分析和估计分析。在近似分析中,研究了联合KL的无视野近似因子;在估计分析中,证明了信息论下界的存在。
关键创新:最重要的技术创新点在于首次完整表征了联合KL目标下的长视野误差行为,提供了与现有方法本质上不同的视角,尤其是在近似和估计的速率上。
关键设计:在设计上,论文采用了特定的损失函数和策略类,确保了在不同策略下的估计下界与计算高效算法的上界相匹配。
📊 实验亮点
实验结果表明,使用联合KL散度的模型在长序列学习中表现出显著的性能提升,尤其是在近似和估计误差方面,达到了与现有高效算法相匹配的下界,展示了其优越性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、时间序列预测和强化学习等。通过改进长序列建模的准确性,能够提升相关任务的性能,具有重要的实际价值和未来影响。
📄 摘要(原文)
We study the fundamental and timely problem of learning long sequences in autoregressive modeling and next-token prediction under model misspecification, measured by the joint Kullback--Leibler (KL) divergence. Our goal is to characterize how the sequence horizon (H) affects both approximation and estimation errors in this joint-distribution, sequence-level regime. By establishing matching upper and lower bounds, we provide, to our knowledge, the first complete characterization of long-horizon error behavior under the natural joint KL objective, with improved rates and optimality justification relative to existing work. On the approximation side, we show that joint KL admits a horizon-free approximation factor, in sharp contrast to Hellinger-based analyses that exhibit an (Ω(H)) dependence for computationally efficient methods; this isolates the choice of divergence as the source of approximation amplification. On the estimation side, we prove a fundamental information-theoretic lower bound of order (Ω(H)) that holds for both decomposable policy classes and fully shared policies, matching the (\widetilde O(H)) upper bounds achieved by computationally efficient algorithms. Our analysis clarifies the landscape of recent autoregressive learning results by aligning the log-loss training objective, the sequence-level evaluation metric, and the approximation metric {\color{black}through a sharp joint-KL oracle theory}. We further show that these joint-KL guarantees imply policy learning regret bounds at rates matching prior imitation learning literature.