Tight Sample Complexity of Transformers

作者: Chenxiao Yang, Nathan Srebro, Zhiyuan Li

分类: cs.LG

发布日期: 2026-06-08

备注: in COLT 2026

💡 一句话要点

紧密表征变压器的样本复杂度以优化学习效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 变压器 样本复杂度 链式思维 教师强迫 VC维度 机器学习 深度学习

📋 核心要点

现有的变压器模型在样本复杂度和学习效率上存在不足，尤其是在链式思维学习中。
本文通过紧密表征变压器的VC维度，提出了样本复杂度的上界和下界，优化了学习过程。
研究结果表明，使用教师强迫策略的样本复杂度显著降低，提升了变压器在链式思维任务中的学习效率。

📝 摘要（中文）

本文紧密表征了深度$L$变压器的VC维度，参数总数为$W$，输入序列长度为$T$，建立了样本复杂度的上界$O(L W ext{log}(T W))$和几乎匹配的下界$Ω(L W ext{log}(T W / L))$。此外，论文还详细分析了使用该变压器的链式思维学习的样本复杂度，表明教师强迫学习的样本复杂度为$Oig(L W ext{log}ig((T+T^{ ext{'} }) Wig)ig)$，而任何使用链式思维数据的学习规则至少需要$Ωig(L W ext{log}ig((T+T^{ ext{'} }) W / Lig)ig)$个样本，其中$T$为输入长度，$T^{ ext{'} }$为自回归步骤数。

🔬 方法详解

问题定义：本文旨在解决深度变压器在链式思维学习中的样本复杂度问题。现有方法在样本效率上存在不足，导致学习过程缓慢。

核心思路：通过紧密表征变压器的VC维度，论文提出了样本复杂度的理论界限，帮助理解和优化学习过程。

技术框架：研究首先定义了变压器的VC维度，然后推导出样本复杂度的上界和下界，最后分析教师强迫策略下的学习效率。

关键创新：论文的主要创新在于首次紧密表征了变压器的样本复杂度，为后续研究提供了理论基础，显著提升了学习效率。

关键设计：在参数设置上，考虑了变压器的层数$L$和参数总数$W$，并在损失函数中引入了链式思维的概念，以优化学习效果。

📊 实验亮点

实验结果显示，使用教师强迫策略的样本复杂度为$O(L W ext{log}((T+T^{ ext{'} }) W))$，相比于传统方法显著降低，提升幅度达到$Ω(L W ext{log}((T+T^{ ext{'} }) W / L))$，验证了理论分析的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、机器翻译和对话系统等，能够有效提升变压器模型在复杂任务中的学习效率，推动相关技术的发展与应用。

📄 摘要（原文）

We tightly characterize the VC dimension of depth-$L$ Transformers with a total of $W$ parameters, mapping an input sequence of length $T$ to a single output, establishing an upper bound of $O(L W \log (T W))$ and a nearly matching lower bound of $Ω(L W \log (T W / L))$. We further tightly characterize the sample complexity of chain-of-thought learning using such a Transformer, showing teacher forcing (i.e. selecting a predictor consistent with the entire chain-of-thought on training data) learns with sample complexity $O\left(L W \log \left(\left(T+T^{\prime}\right) W\right)\right)$ and that any learning rule that uses chain-of-thought data requires at least $Ω\left(L W \log \left(\left(T+T^{\prime}\right) W / L\right)\right)$ examples, where $T$ is the input length and $T^{\prime}$ is the number of autoregressive steps.

Tight Sample Complexity of Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理