Tight Sample Complexity of Transformers
作者: Chenxiao Yang, Nathan Srebro, Zhiyuan Li
分类: cs.LG
发布日期: 2026-06-08
备注: in COLT 2026
💡 一句话要点
紧密表征变压器的样本复杂度以优化学习效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 变压器 样本复杂度 链式思维 教师强迫 VC维度 机器学习 深度学习
📋 核心要点
- 现有的变压器模型在样本复杂度和学习效率上存在不足,尤其是在链式思维学习中。
- 本文通过紧密表征变压器的VC维度,提出了样本复杂度的上界和下界,优化了学习过程。
- 研究结果表明,使用教师强迫策略的样本复杂度显著降低,提升了变压器在链式思维任务中的学习效率。
📝 摘要(中文)
本文紧密表征了深度$L$变压器的VC维度,参数总数为$W$,输入序列长度为$T$,建立了样本复杂度的上界$O(L W ext{log}(T W))$和几乎匹配的下界$Ω(L W ext{log}(T W / L))$。此外,论文还详细分析了使用该变压器的链式思维学习的样本复杂度,表明教师强迫学习的样本复杂度为$Oig(L W ext{log}ig((T+T^{ ext{'} }) Wig)ig)$,而任何使用链式思维数据的学习规则至少需要$Ωig(L W ext{log}ig((T+T^{ ext{'} }) W / Lig)ig)$个样本,其中$T$为输入长度,$T^{ ext{'} }$为自回归步骤数。
🔬 方法详解
问题定义:本文旨在解决深度变压器在链式思维学习中的样本复杂度问题。现有方法在样本效率上存在不足,导致学习过程缓慢。
核心思路:通过紧密表征变压器的VC维度,论文提出了样本复杂度的理论界限,帮助理解和优化学习过程。
技术框架:研究首先定义了变压器的VC维度,然后推导出样本复杂度的上界和下界,最后分析教师强迫策略下的学习效率。
关键创新:论文的主要创新在于首次紧密表征了变压器的样本复杂度,为后续研究提供了理论基础,显著提升了学习效率。
关键设计:在参数设置上,考虑了变压器的层数$L$和参数总数$W$,并在损失函数中引入了链式思维的概念,以优化学习效果。
📊 实验亮点
实验结果显示,使用教师强迫策略的样本复杂度为$O(L W ext{log}((T+T^{ ext{'} }) W))$,相比于传统方法显著降低,提升幅度达到$Ω(L W ext{log}((T+T^{ ext{'} }) W / L))$,验证了理论分析的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等,能够有效提升变压器模型在复杂任务中的学习效率,推动相关技术的发展与应用。
📄 摘要(原文)
We tightly characterize the VC dimension of depth-$L$ Transformers with a total of $W$ parameters, mapping an input sequence of length $T$ to a single output, establishing an upper bound of $O(L W \log (T W))$ and a nearly matching lower bound of $Ω(L W \log (T W / L))$. We further tightly characterize the sample complexity of chain-of-thought learning using such a Transformer, showing teacher forcing (i.e. selecting a predictor consistent with the entire chain-of-thought on training data) learns with sample complexity $O\left(L W \log \left(\left(T+T^{\prime}\right) W\right)\right)$ and that any learning rule that uses chain-of-thought data requires at least $Ω\left(L W \log \left(\left(T+T^{\prime}\right) W / L\right)\right)$ examples, where $T$ is the input length and $T^{\prime}$ is the number of autoregressive steps.