Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

作者: Hai Huang, Yann LeCun, Randall Balestriero

分类: cs.LG

发布日期: 2026-02-26

备注: 21 pages, 13 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出语义管道预测以提升大语言模型的数据效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数据效率 语义管道预测 测地假设 机器学习

📋 核心要点

现有的大语言模型在数据效率上受到缩放法则的限制，难以突破这些界限。
本文提出的语义管道预测（STP）通过限制隐藏状态轨迹在测地线的邻域内，提升了模型的信号噪声比。
实验证明，STP使得模型在NL-RX-SYNTH数据集上以16倍更少的数据实现了与基线相同的准确率。

📝 摘要（中文）

大型语言模型（LLMs）遵循一致的缩放法则，这些法则描述了损失如何随着计算、数据和参数的增加而减少。尽管这些法则具有预测性，但它们是描述性的而非处方性的，主要关注典型训练而非最优训练。本文提出了测地假设，认为令牌序列在平滑的语义流形上描绘测地线，因此在局部上是线性的。基于此，我们提出了一种新的语义管道预测（STP）任务，这是一种JEPA风格的正则化器，将隐藏状态轨迹限制在测地线的管状邻域内。STP在不需要显式多视图增强的情况下，将JEPA推广到语言任务。实验证明，STP使LLMs在NL-RX-SYNTH数据集上以16倍更少的训练数据达到基线准确率，直接违反了Chinchilla风格缩放法则的数据项，展示了有原则的几何先验可以超越简单的缩放。

🔬 方法详解

问题定义：本文旨在挑战大型语言模型在数据效率上的限制，现有方法未能有效突破缩放法则所暗示的数据效率界限。

核心思路：提出测地假设，认为令牌序列在语义流形上呈现局部线性特性，进而设计语义管道预测（STP）任务，以约束隐藏状态轨迹。

技术框架：整体架构包括数据输入、STP正则化模块和模型输出，STP模块通过限制轨迹在测地线的邻域内来提高模型性能。

关键创新：STP是对JEPA的推广，允许在语言任务中应用而无需多视图增强，显著提高了信号噪声比，防止推理过程中的轨迹碰撞。

关键设计：在模型训练中，STP通过特定的损失函数来约束轨迹，确保其在测地线的管状邻域内，从而优化模型的学习过程。具体参数设置和网络结构细节在实验中进行了验证。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用语义管道预测（STP）后，模型在NL-RX-SYNTH数据集上以16倍更少的训练数据达到了与基线相同的准确率，显著违反了Chinchilla风格缩放法则的数据要求，展示了几何先验的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和文本生成等。通过提升大语言模型的数据效率，能够在资源有限的情况下实现更高的性能，具有重要的实际价值和广泛的应用前景。

📄 摘要（原文）

Large Language Models (LLMs) obey consistent scaling laws -- empirical power-law fits that predict how loss decreases with compute, data, and parameters. While predictive, these laws are descriptive rather than prescriptive: they characterize typical training, not optimal training. Surprisingly few works have successfully challenged the data-efficiency bounds implied by these laws -- which is our primary focus. To that end, we introduce the Geodesic Hypothesis, positing that token sequences trace geodesics on a smooth semantic manifold and are therefore locally linear. Building on this principle, we propose a novel Semantic Tube Prediction (STP) task, a JEPA-style regularizer that confines hidden-state trajectories to a tubular neighborhood of the geodesic. STP generalizes JEPA to language without requiring explicit multi-view augmentations. We show this constraint improves signal-to-noise ratio, and consequently preserves diversity by preventing trajectory collisions during inference. Empirically, STP allows LLMs to match baseline accuracy with 16$\times$ less training data on the NL-RX-SYNTH dataset, directly violating the data term of Chinchilla-style scaling laws and demonstrating that principled geometric priors can surpass brute-force scaling. Code is available at https://github.com/galilai-group/llm-jepa#stp.

Semantic Tube Prediction: Beating LLM Data Efficiency with JEPA

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理