Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

📄 arXiv: 2602.22617v1 📥 PDF

作者: Hai Huang, Yann LeCun, Randall Balestriero

分类: cs.LG

发布日期: 2026-02-26

备注: 21 pages, 13 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出语义管道预测以提升大语言模型的数据效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数据效率 语义管道预测 测地假设 机器学习

📋 核心要点

  1. 现有的大语言模型在数据效率上受到缩放法则的限制,难以突破这些界限。
  2. 本文提出的语义管道预测(STP)通过限制隐藏状态轨迹在测地线的邻域内,提升了模型的信号噪声比。
  3. 实验证明,STP使得模型在NL-RX-SYNTH数据集上以16倍更少的数据实现了与基线相同的准确率。

📝 摘要(中文)

大型语言模型(LLMs)遵循一致的缩放法则,这些法则描述了损失如何随着计算、数据和参数的增加而减少。尽管这些法则具有预测性,但它们是描述性的而非处方性的,主要关注典型训练而非最优训练。本文提出了测地假设,认为令牌序列在平滑的语义流形上描绘测地线,因此在局部上是线性的。基于此,我们提出了一种新的语义管道预测(STP)任务,这是一种JEPA风格的正则化器,将隐藏状态轨迹限制在测地线的管状邻域内。STP在不需要显式多视图增强的情况下,将JEPA推广到语言任务。实验证明,STP使LLMs在NL-RX-SYNTH数据集上以16倍更少的训练数据达到基线准确率,直接违反了Chinchilla风格缩放法则的数据项,展示了有原则的几何先验可以超越简单的缩放。

🔬 方法详解

问题定义:本文旨在挑战大型语言模型在数据效率上的限制,现有方法未能有效突破缩放法则所暗示的数据效率界限。

核心思路:提出测地假设,认为令牌序列在语义流形上呈现局部线性特性,进而设计语义管道预测(STP)任务,以约束隐藏状态轨迹。

技术框架:整体架构包括数据输入、STP正则化模块和模型输出,STP模块通过限制轨迹在测地线的邻域内来提高模型性能。

关键创新:STP是对JEPA的推广,允许在语言任务中应用而无需多视图增强,显著提高了信号噪声比,防止推理过程中的轨迹碰撞。

关键设计:在模型训练中,STP通过特定的损失函数来约束轨迹,确保其在测地线的管状邻域内,从而优化模型的学习过程。具体参数设置和网络结构细节在实验中进行了验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用语义管道预测(STP)后,模型在NL-RX-SYNTH数据集上以16倍更少的训练数据达到了与基线相同的准确率,显著违反了Chinchilla风格缩放法则的数据要求,展示了几何先验的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和文本生成等。通过提升大语言模型的数据效率,能够在资源有限的情况下实现更高的性能,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Large Language Models (LLMs) obey consistent scaling laws -- empirical power-law fits that predict how loss decreases with compute, data, and parameters. While predictive, these laws are descriptive rather than prescriptive: they characterize typical training, not optimal training. Surprisingly few works have successfully challenged the data-efficiency bounds implied by these laws -- which is our primary focus. To that end, we introduce the Geodesic Hypothesis, positing that token sequences trace geodesics on a smooth semantic manifold and are therefore locally linear. Building on this principle, we propose a novel Semantic Tube Prediction (STP) task, a JEPA-style regularizer that confines hidden-state trajectories to a tubular neighborhood of the geodesic. STP generalizes JEPA to language without requiring explicit multi-view augmentations. We show this constraint improves signal-to-noise ratio, and consequently preserves diversity by preventing trajectory collisions during inference. Empirically, STP allows LLMs to match baseline accuracy with 16$\times$ less training data on the NL-RX-SYNTH dataset, directly violating the data term of Chinchilla-style scaling laws and demonstrating that principled geometric priors can surpass brute-force scaling. Code is available at https://github.com/galilai-group/llm-jepa#stp.