Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

作者: Hai Huang, Yann LeCun, Randall Balestriero

分类: cs.LG

发布日期: 2026-02-28

💡 一句话要点

提出语义管道预测（STP），利用JEPA提升LLM数据效率，突破缩放定律限制。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语义管道预测 JEPA 大型语言模型 数据效率 缩放定律 几何先验 正则化

📋 核心要点

现有LLM训练依赖大规模数据，缩放定律虽具预测性，但未能揭示最优训练方式，数据效率提升面临挑战。
论文提出语义管道预测（STP）任务，基于测地线假设，约束隐藏状态轨迹，提升信噪比并保持多样性。
实验表明，STP使LLM在NL-RX-SYNTH数据集上使用16倍更少的数据达到基线精度，突破了传统缩放定律的限制。

📝 摘要（中文）

大型语言模型（LLM）遵循一致的缩放定律——经验性的幂律拟合预测损失如何随着计算、数据和参数的增加而减少。虽然具有预测性，但这些定律是描述性的而非规定性的：它们描述了典型的训练，而不是最优的训练。很少有工作成功地挑战了这些定律所暗示的数据效率界限——这是我们的主要关注点。为此，我们引入了测地线假设，该假设认为token序列在平滑的语义流形上追踪测地线，因此是局部线性的。基于这一原则，我们提出了一种新的语义管道预测（STP）任务，这是一种JEPA风格的正则化器，它将隐藏状态轨迹限制在测地线的管状邻域内。STP将JEPA推广到语言，而无需显式的多视角增强。我们表明，这种约束提高了信噪比，因此通过防止推理期间的轨迹碰撞来保持多样性。在经验上，STP允许LLM在NL-RX-SYNTH数据集上以16倍更少的训练数据匹配基线精度，直接违反了Chinchilla风格缩放定律的数据项，并证明了有原则的几何先验可以超越蛮力缩放。

🔬 方法详解

问题定义：现有大型语言模型（LLM）的训练严重依赖于海量数据，成本高昂。尽管缩放定律能够预测模型性能与数据量之间的关系，但它们更多是描述性的，而非指导性的，无法帮助我们找到数据效率更高的训练方法。因此，如何突破缩放定律的限制，在更少的数据下训练出高性能的LLM，是一个亟待解决的问题。

核心思路：论文的核心思路是引入几何先验知识，约束LLM的隐藏状态轨迹。具体而言，论文提出了“测地线假设”，认为token序列在语义空间中沿着测地线运动，因此局部是线性的。基于此，论文设计了一种新的正则化方法，即语义管道预测（STP），将隐藏状态轨迹限制在测地线周围的管状邻域内。这样做的目的是提高信噪比，防止轨迹碰撞，从而提升模型的泛化能力和数据效率。

技术框架：STP方法可以看作是一种JEPA（Joint Embedding Predictive Architecture）风格的正则化器，它不需要显式的多视角增强。整体流程如下：首先，将输入token序列输入LLM，得到隐藏状态序列。然后，根据测地线假设，预测每个隐藏状态的未来状态，并将其约束在以真实未来状态为中心的管状邻域内。这个约束通过一个损失函数来实现，该损失函数惩罚预测状态与真实状态之间的偏差。最后，将这个损失函数加入到LLM的训练目标中，从而实现对隐藏状态轨迹的正则化。

关键创新：论文最重要的技术创新点在于提出了语义管道预测（STP）任务，并将其作为一种正则化方法应用于LLM的训练。STP的核心思想是利用几何先验知识，约束隐藏状态轨迹，从而提高数据效率。与传统的JEPA方法相比，STP不需要显式的多视角增强，可以直接应用于语言模型。此外，STP还能够提高信噪比，防止轨迹碰撞，从而提升模型的泛化能力。

关键设计：STP的关键设计包括以下几个方面：1) 测地线假设：这是STP的基础，它假设token序列在语义空间中沿着测地线运动。2) 管状邻域：STP将隐藏状态轨迹限制在测地线周围的管状邻域内，这个邻域的大小需要根据具体任务进行调整。3) 损失函数：STP使用一个损失函数来惩罚预测状态与真实状态之间的偏差，这个损失函数可以是均方误差、交叉熵等。4) 网络结构：STP可以应用于各种LLM，只需要在训练目标中加入STP的损失函数即可。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在NL-RX-SYNTH数据集上，使用STP训练的LLM仅需1/16的数据量即可达到与基线模型相当的精度。这直接违反了Chinchilla风格的缩放定律，证明了有原则的几何先验可以有效提升LLM的数据效率。该结果表明，STP是一种非常有潜力的数据高效训练方法。

🎯 应用场景

该研究成果可应用于各种自然语言处理任务，尤其是在数据资源有限的情况下，例如低资源语言建模、特定领域文本生成等。通过提高LLM的数据效率，可以降低训练成本，加速模型部署，并促进人工智能技术在更广泛领域的应用。未来，该方法有望与其他数据增强技术结合，进一步提升LLM的性能。

📄 摘要（原文）

Large Language Models (LLMs) obey consistent scaling laws -- empirical power-law fits that predict how loss decreases with compute, data, and parameters. While predictive, these laws are descriptive rather than prescriptive: they characterize typical training, not optimal training. Surprisingly few works have successfully challenged the data-efficiency bounds implied by these laws -- which is our primary focus. To that end, we introduce the Geodesic Hypothesis, positing that token sequences trace geodesics on a smooth semantic manifold and are therefore locally linear. Building on this principle, we propose a novel Semantic Tube Prediction (STP) task, a JEPA-style regularizer that confines hidden-state trajectories to a tubular neighborhood of the geodesic. STP generalizes JEPA to language without requiring explicit multi-view augmentations. We show this constraint improves signal-to-noise ratio, and consequently preserves diversity by preventing trajectory collisions during inference. Empirically, STP allows LLMs to match baseline accuracy with 16$\times$ less training data on the NL-RX-SYNTH dataset, directly violating the data term of Chinchilla-style scaling laws and demonstrating that principled geometric priors can surpass brute-force scaling. Code is available atthis https URL.

Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理