Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

📄 arXiv: 2602.22617 📥 PDF

作者: Hai Huang, Yann LeCun, Randall Balestriero

分类: cs.LG

发布日期: 2026-02-28


💡 一句话要点

提出语义管道预测(STP),利用JEPA提升LLM数据效率,突破缩放定律限制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义管道预测 JEPA 大型语言模型 数据效率 缩放定律 几何先验 正则化

📋 核心要点

  1. 现有LLM训练依赖大规模数据,缩放定律虽具预测性,但未能揭示最优训练方式,数据效率提升面临挑战。
  2. 论文提出语义管道预测(STP)任务,基于测地线假设,约束隐藏状态轨迹,提升信噪比并保持多样性。
  3. 实验表明,STP使LLM在NL-RX-SYNTH数据集上使用16倍更少的数据达到基线精度,突破了传统缩放定律的限制。

📝 摘要(中文)

大型语言模型(LLM)遵循一致的缩放定律——经验性的幂律拟合预测损失如何随着计算、数据和参数的增加而减少。虽然具有预测性,但这些定律是描述性的而非规定性的:它们描述了典型的训练,而不是最优的训练。很少有工作成功地挑战了这些定律所暗示的数据效率界限——这是我们的主要关注点。为此,我们引入了测地线假设,该假设认为token序列在平滑的语义流形上追踪测地线,因此是局部线性的。基于这一原则,我们提出了一种新的语义管道预测(STP)任务,这是一种JEPA风格的正则化器,它将隐藏状态轨迹限制在测地线的管状邻域内。STP将JEPA推广到语言,而无需显式的多视角增强。我们表明,这种约束提高了信噪比,因此通过防止推理期间的轨迹碰撞来保持多样性。在经验上,STP允许LLM在NL-RX-SYNTH数据集上以16倍更少的训练数据匹配基线精度,直接违反了Chinchilla风格缩放定律的数据项,并证明了有原则的几何先验可以超越蛮力缩放。

🔬 方法详解

问题定义:现有大型语言模型(LLM)的训练严重依赖于海量数据,成本高昂。尽管缩放定律能够预测模型性能与数据量之间的关系,但它们更多是描述性的,而非指导性的,无法帮助我们找到数据效率更高的训练方法。因此,如何突破缩放定律的限制,在更少的数据下训练出高性能的LLM,是一个亟待解决的问题。

核心思路:论文的核心思路是引入几何先验知识,约束LLM的隐藏状态轨迹。具体而言,论文提出了“测地线假设”,认为token序列在语义空间中沿着测地线运动,因此局部是线性的。基于此,论文设计了一种新的正则化方法,即语义管道预测(STP),将隐藏状态轨迹限制在测地线周围的管状邻域内。这样做的目的是提高信噪比,防止轨迹碰撞,从而提升模型的泛化能力和数据效率。

技术框架:STP方法可以看作是一种JEPA(Joint Embedding Predictive Architecture)风格的正则化器,它不需要显式的多视角增强。整体流程如下:首先,将输入token序列输入LLM,得到隐藏状态序列。然后,根据测地线假设,预测每个隐藏状态的未来状态,并将其约束在以真实未来状态为中心的管状邻域内。这个约束通过一个损失函数来实现,该损失函数惩罚预测状态与真实状态之间的偏差。最后,将这个损失函数加入到LLM的训练目标中,从而实现对隐藏状态轨迹的正则化。

关键创新:论文最重要的技术创新点在于提出了语义管道预测(STP)任务,并将其作为一种正则化方法应用于LLM的训练。STP的核心思想是利用几何先验知识,约束隐藏状态轨迹,从而提高数据效率。与传统的JEPA方法相比,STP不需要显式的多视角增强,可以直接应用于语言模型。此外,STP还能够提高信噪比,防止轨迹碰撞,从而提升模型的泛化能力。

关键设计:STP的关键设计包括以下几个方面:1) 测地线假设:这是STP的基础,它假设token序列在语义空间中沿着测地线运动。2) 管状邻域:STP将隐藏状态轨迹限制在测地线周围的管状邻域内,这个邻域的大小需要根据具体任务进行调整。3) 损失函数:STP使用一个损失函数来惩罚预测状态与真实状态之间的偏差,这个损失函数可以是均方误差、交叉熵等。4) 网络结构:STP可以应用于各种LLM,只需要在训练目标中加入STP的损失函数即可。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在NL-RX-SYNTH数据集上,使用STP训练的LLM仅需1/16的数据量即可达到与基线模型相当的精度。这直接违反了Chinchilla风格的缩放定律,证明了有原则的几何先验可以有效提升LLM的数据效率。该结果表明,STP是一种非常有潜力的数据高效训练方法。

🎯 应用场景

该研究成果可应用于各种自然语言处理任务,尤其是在数据资源有限的情况下,例如低资源语言建模、特定领域文本生成等。通过提高LLM的数据效率,可以降低训练成本,加速模型部署,并促进人工智能技术在更广泛领域的应用。未来,该方法有望与其他数据增强技术结合,进一步提升LLM的性能。

📄 摘要(原文)

Large Language Models (LLMs) obey consistent scaling laws -- empirical power-law fits that predict how loss decreases with compute, data, and parameters. While predictive, these laws are descriptive rather than prescriptive: they characterize typical training, not optimal training. Surprisingly few works have successfully challenged the data-efficiency bounds implied by these laws -- which is our primary focus. To that end, we introduce the Geodesic Hypothesis, positing that token sequences trace geodesics on a smooth semantic manifold and are therefore locally linear. Building on this principle, we propose a novel Semantic Tube Prediction (STP) task, a JEPA-style regularizer that confines hidden-state trajectories to a tubular neighborhood of the geodesic. STP generalizes JEPA to language without requiring explicit multi-view augmentations. We show this constraint improves signal-to-noise ratio, and consequently preserves diversity by preventing trajectory collisions during inference. Empirically, STP allows LLMs to match baseline accuracy with 16$\times$ less training data on the NL-RX-SYNTH dataset, directly violating the data term of Chinchilla-style scaling laws and demonstrating that principled geometric priors can surpass brute-force scaling. Code is available atthis https URL.