Representation Without Reward: A JEPA Audit for LLM Fine-Tuning
作者: Biswa Sengupta
分类: cs.LG, cs.AI, stat.ML
发布日期: 2026-05-14
💡 一句话要点
通过JEPA审计评估LLM微调效果:表征与奖励的解耦研究
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 语言模型微调 联合嵌入预测架构 表征学习 隐藏层几何 解码性能 JEPA审计 弱耦合
📋 核心要点
- 现有语言模型微调方法缺乏对隐藏层表征质量的有效评估,难以保证解码性能的提升。
- 论文提出使用JEPA框架审计LLM微调过程,关注隐藏状态几何结构与解码任务指标之间的耦合关系。
- 实验表明,多种辅助训练方法虽改变了隐藏层几何结构,但未能显著提升解码性能,揭示了表征与奖励的弱耦合。
📝 摘要(中文)
联合嵌入预测架构(JEPA)认为,训练模型预测潜在表征而非直接预测观测输出,能够学习到更有用的抽象。对于自回归语言模型微调,这一原则提出了更严格的要求:模型导出的隐藏状态几何结构必须到达语言模型头部,并提升解码后的任务指标。本文在固定的Llama-3.2-1B-Instruct LoRA框架下,针对自然语言到正则表达式的生成任务,测试了这一要求。比较了22种训练时辅助方法,涵盖轨迹形状正则化、分布约束、预测器/目标不对称性、Fisher度量雅可比残差以及一个构建在交叉熵正锥内的解码器可见JEPA目标。实验结果呈现结构性无效:一些辅助方法在未校正的情况下,清除了单细胞配对α=0.10(T3-Local在Δ=+2.53 pp,p=0.003时效果最强),但没有一种方法能在相关的族系阈值下通过Bonferroni或Holm-Bonferroni校正,即使许多方法改变了曲率、各向异性、方差和梯度方向。解码器可见JEPA产生了研究中第一个正辅助-交叉熵梯度余弦,但精确匹配仍然在种子噪声范围内;在n=5个种子下,对同一辅助方法进行完全微调复制,在两个基准测试中都重现了无效结果(TURK:Δ=+0.04 pp,p_paired=0.96;SYNTH:Δ=+0.52 pp,p_paired=0.28),因此对于解码器可见的构造,无效结果在LoRA和完全微调中都是稳健的。因此,隐藏状态表征工作和解码任务准确性在这种机制下是弱耦合的;因此,我们将LLM领域的JEPA评估重新定义为一个耦合问题,其中关键问题是在哪些指标下,有用的隐藏几何结构会变成解码器可见的任务信号。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)微调过程中,如何有效评估和提升隐藏层表征质量的问题。现有方法主要关注最终的解码性能,而忽略了隐藏层学习到的表征是否真正有利于任务完成。即使隐藏层表征发生改变,也未必能转化为解码性能的提升,这使得微调过程缺乏可解释性和优化方向。
核心思路:论文的核心思路是利用联合嵌入预测架构(JEPA)的原则,将隐藏层表征的预测能力作为评估微调效果的指标。通过引入各种辅助训练目标,鼓励模型学习更有用的隐藏层表征,并观察这些表征的变化是否能够转化为解码性能的提升。如果隐藏层表征的改进不能带来解码性能的提升,则说明表征与奖励之间存在弱耦合。
技术框架:论文的技术框架主要包括以下几个部分:1) 使用Llama-3.2-1B-Instruct作为基础模型,并采用LoRA进行微调。2) 设计了22种不同的辅助训练目标,涵盖轨迹形状正则化、分布约束、预测器/目标不对称性、Fisher度量雅可比残差以及解码器可见JEPA目标。3) 使用自然语言到正则表达式的生成任务作为评估基准,包括TURK和SYNTH两个数据集。4) 通过统计显著性检验,评估不同辅助训练目标对解码性能的影响。
关键创新:论文最重要的技术创新点在于将JEPA原则应用于LLM微调的审计,并提出了“表征与奖励的耦合问题”。通过实验发现,即使隐藏层表征发生显著变化,也未必能转化为解码性能的提升,这挑战了传统的微调范式。论文强调,未来的研究应该关注如何建立隐藏层表征与解码性能之间的强耦合关系。
关键设计:论文的关键设计包括:1) 设计了多种辅助训练目标,以鼓励模型学习不同的隐藏层表征。2) 使用解码器可见JEPA目标,直接优化隐藏层表征的解码能力。3) 采用严格的统计显著性检验,以评估不同辅助训练目标的效果。4) 通过LoRA和完全微调两种方式,验证实验结果的稳健性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,尽管多种辅助训练方法能够改变LLM的隐藏层几何结构,但未能显著提升自然语言到正则表达式生成任务的解码性能。解码器可见JEPA目标虽然产生了正向的辅助-交叉熵梯度余弦,但最终的精确匹配结果仍在种子噪声范围内。在LoRA和完全微调两种设置下,实验结果均呈现结构性无效,揭示了隐藏层表征与解码性能之间的弱耦合。
🎯 应用场景
该研究成果可应用于大型语言模型的微调优化,帮助研究人员设计更有效的训练策略,提升模型在特定任务上的性能。通过关注隐藏层表征与解码性能的耦合关系,有望开发出更具可解释性和泛化能力的语言模型。此外,该方法论也可推广到其他深度学习模型的训练和优化中。
📄 摘要(原文)
Joint-embedding predictive architectures (JEPAs) propose that a model should learn more useful abstractions when trained to predict latent representations rather than observed outputs. For autoregressive language-model fine-tuning the principle entails a stricter requirement: the induced hidden-state geometry must reach the language-model head \emph{and} improve the decoded task metric. We test that requirement under a fixed Llama-3.2-1B-Instruct LoRA harness on natural-language-to-regex generation, comparing twenty-two training-time auxiliaries across trajectory-shape regularisation, distributional constraints, predictor/target asymmetry, Fisher-metric Jacobi residuals, and a decoder-visible JEPA objective constructed to lie in cross-entropy's positive cone. The empirical answer is a structured null: several auxiliaries clear single-cell paired $α= 0.10$ without correction (T3-Local at $Δ= +2.53$~pp, $p = 0.003$ being the strongest), but none survives Bonferroni or Holm--Bonferroni at the relevant family-wise threshold, even though many change curvature, anisotropy, variance, and gradient direction. Decoder-visible JEPA yields the first positive auxiliary--cross-entropy gradient cosine in the study, yet exact match remains inside seed noise; a full-fine-tuning replication of the same auxiliary at $n = 5$ seeds reproduces the null on both benchmarks (TURK: $Δ= +0.04$~pp, $p_{\text{paired}} = 0.96$; SYNTH: $Δ= +0.52$~pp, $p_{\text{paired}} = 0.28$), so the null is robust across LoRA and full fine-tuning for the decoder-visible construction. Hidden-state representation work and decoded-task accuracy are therefore weakly coupled in this regime; we accordingly reframe LLM-domain JEPA evaluation as a coupling problem, in which the operative question is under which metrics useful hidden geometry becomes decoder-visible task signal.