Nearly Instance-Optimal Parameter Recovery from Many Trajectories via Hellinger Localization
作者: Eliot Shekhtman, Yichen Zhou, Ingvar Ziemann, Nikolai Matni, Stephen Tu
分类: cs.LG, stat.ML
发布日期: 2025-10-07
💡 一句话要点
通过Hellinger局部化,实现多轨迹下近乎实例最优的参数恢复
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多轨迹学习 参数恢复 Hellinger局部化 实例最优 最大似然估计
📋 核心要点
- 现有单轨迹学习方法在多轨迹场景下存在局限性,无法充分利用数据,且依赖于混合假设。
- 本文提出Hellinger局部化框架,通过控制Hellinger距离和利用轨迹Fisher信息,实现实例最优的参数恢复。
- 在多个案例研究中,该方法获得了接近实例最优的速率,显著优于标准简化方法。
📝 摘要(中文)
本文研究了从时间相关的多轨迹数据中进行学习的问题,这是现代机器学习的核心方面。针对多轨迹场景,提出了一种基于Hellinger局部化框架的通用最大似然估计方法,显著扩展了实例最优速率的范围。该方法首先通过简化为独立同分布学习来控制路径度量级别的平方Hellinger距离,然后通过轨迹Fisher信息加权的参数空间中的二次形式进行局部化。这在广泛的条件下产生了随完整数据预算缩放的实例最优界限。本文在四个不同的案例研究中验证了该框架:马尔可夫链的简单混合、非高斯噪声下的依赖线性回归、具有非单调激活的广义线性模型以及线性注意力序列模型。在所有情况下,本文的界限几乎与渐近正态性的实例最优速率相匹配,大大优于标准简化方法。
🔬 方法详解
问题定义:论文旨在解决多轨迹数据下的参数恢复问题,即如何从多个独立的时间序列中有效地学习模型参数。现有方法要么简化为独立同分布学习,导致有效样本量仅随轨迹数量缩放;要么依赖于单轨迹混合假设,有效样本量受混合时间限制,无法充分利用全部数据。这些方法在更一般的模型或损失函数下,无法达到实例最优的性能。
核心思路:论文的核心思路是利用Hellinger局部化框架,将多轨迹学习问题分解为两个步骤:首先,通过将问题简化为独立同分布学习,控制路径度量级别的平方Hellinger距离;然后,利用轨迹Fisher信息对参数空间进行局部化,从而获得更紧的参数估计界限。这种方法能够充分利用多轨迹数据的信息,避免了对混合假设的依赖。
技术框架:整体框架包含以下两个主要阶段: 1. Hellinger距离控制:将多轨迹学习问题转化为独立同分布学习问题,目的是控制真实分布与模型分布之间的Hellinger距离。 2. 局部化:利用轨迹Fisher信息作为权重,在参数空间中进行局部化,从而获得更精确的参数估计。该阶段旨在利用每个轨迹的独特性质,提高参数估计的准确性。
关键创新:论文的关键创新在于将Hellinger局部化框架应用于多轨迹学习问题,并证明了其能够实现实例最优的参数恢复速率。与现有方法相比,该方法不需要混合假设,并且能够充分利用多轨迹数据的信息,从而获得更紧的参数估计界限。
关键设计:论文的关键设计包括: 1. 路径度量级别的Hellinger距离控制:通过精心设计的损失函数和正则化项,确保模型分布与真实分布之间的Hellinger距离受到控制。 2. 轨迹Fisher信息加权的局部化:利用每个轨迹的Fisher信息作为权重,对参数空间进行局部化,从而提高参数估计的准确性。 3. 针对不同模型的实例化:针对马尔可夫链混合、依赖线性回归、广义线性模型和线性注意力序列模型等不同模型,设计了具体的Hellinger局部化方案。
📊 实验亮点
论文在四个案例研究中验证了Hellinger局部化框架的有效性。结果表明,该方法在马尔可夫链混合、依赖线性回归、广义线性模型和线性注意力序列模型等场景下,均能获得接近实例最优的参数恢复速率,显著优于标准简化方法。具体性能提升幅度取决于具体模型和数据集,但总体趋势是该方法能够更有效地利用多轨迹数据,从而获得更准确的参数估计。
🎯 应用场景
该研究成果可广泛应用于时序数据分析、强化学习、推荐系统等领域。例如,在金融市场预测中,可以利用多个股票的历史交易数据来更准确地估计模型参数;在机器人控制中,可以利用多个机器人的运动轨迹来学习更鲁棒的控制策略。该方法能够提升模型训练效率和预测精度,具有重要的实际应用价值。
📄 摘要(原文)
Learning from temporally-correlated data is a core facet of modern machine learning. Yet our understanding of sequential learning remains incomplete, particularly in the multi-trajectory setting where data consists of many independent realizations of a time-indexed stochastic process. This important regime both reflects modern training pipelines such as for large foundation models, and offers the potential for learning without the typical mixing assumptions made in the single-trajectory case. However, instance-optimal bounds are known only for least-squares regression with dependent covariates; for more general models or loss functions, the only broadly applicable guarantees result from a reduction to either i.i.d. learning, with effective sample size scaling only in the number of trajectories, or an existing single-trajectory result when each individual trajectory mixes, with effective sample size scaling as the full data budget deflated by the mixing-time. In this work, we significantly broaden the scope of instance-optimal rates in multi-trajectory settings via the Hellinger localization framework, a general approach for maximum likelihood estimation. Our method proceeds by first controlling the squared Hellinger distance at the path-measure level via a reduction to i.i.d. learning, followed by localization as a quadratic form in parameter space weighted by the trajectory Fisher information. This yields instance-optimal bounds that scale with the full data budget under a broad set of conditions. We instantiate our framework across four diverse case studies: a simple mixture of Markov chains, dependent linear regression under non-Gaussian noise, generalized linear models with non-monotonic activations, and linear-attention sequence models. In all cases, our bounds nearly match the instance-optimal rates from asymptotic normality, substantially improving over standard reductions.