PLDR-LLMs Learn A Generalizable Tensor Operator That Can Replace Its Own Deep Neural Net At Inference

📄 arXiv: 2502.13502v2 📥 PDF

作者: Burc Gokden

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-19 (更新: 2025-02-22)

备注: 15 pages, 1 figure, 12 tables, more ablation data included


💡 一句话要点

提出PLDR-LLM以替代深度神经网络进行推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 蒸馏训练 多模态融合 深度学习 推理优化

📋 核心要点

  1. 现有方法在推理阶段依赖深度神经网络,导致推理速度较慢且计算资源消耗高。
  2. 论文提出PLDR-LLM,通过学习奇异性条件,使得能量-曲率张量能够替代深度神经网络进行推理。
  3. 实验结果表明,使用G-cache和KV-cache后,推理速度显著提升,推导输出的准确性保持在高保真度水平。

📝 摘要(中文)

本文展示了基于幂律解码器表示(PLDR)的语言模型(PLDR-LLM)作为基础模型,其推导输出在小扰动下保持不变。PLDR-LLM学习了一种奇异性条件,使得推导出的能量-曲率张量$ extbf{G}{LM}$能够在推理时替代生成推导输出的深度神经网络。我们证明了可以简单实现$ extbf{G}{LM}$的缓存(G-cache)和KV缓存,以提高推理速度。推导输出的保持不变性和可推广性在高保真度下表现出色,缓存后推导输出的均方根误差(RMSE)和行列式值保持在15位小数内相同,零-shot基准分数保持不变。消融研究表明,学习到的推导输出与使用转移、随机初始化或恒定张量作为常量张量操作符的模型在损失和准确性特征上存在显著差异。

🔬 方法详解

问题定义:本文旨在解决深度神经网络在推理阶段的效率问题,现有方法在推理时计算复杂度高,导致响应时间延迟。

核心思路:PLDR-LLM通过学习奇异性条件,使得推导输出的能量-曲率张量$ extbf{G}_{LM}$能够在推理时替代深度神经网络,从而提高推理效率。

技术框架:整体架构包括PLDR-LLM模型的训练阶段和推理阶段,推理阶段引入G-cache和KV-cache模块以加速推理过程。

关键创新:最重要的技术创新在于PLDR-LLM的推导输出具有高度的不变性和可推广性,能够在推理时显著减少计算资源的消耗。

关键设计:在模型设计中,采用了特定的损失函数和参数设置,以确保推导输出的高保真度,同时G-cache和KV-cache的实现也经过优化,以提高推理速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用G-cache和KV-cache后,推导输出的均方根误差(RMSE)和行列式值保持在15位小数内相同,零-shot基准分数未发生变化,表明推理效率和准确性均得到了显著提升。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、图像理解和其他需要高效推理的人工智能任务。通过替代传统的深度神经网络,PLDR-LLM能够在保持高准确度的同时,显著提升推理速度,具有广泛的实际价值和未来影响。

📄 摘要(原文)

We show that Large Language Model from Power Law Decoder Representations (PLDR-LLM) is a foundational model whose deductive outputs are invariant tensors up to a small perturbation. PLDR-LLM learns a singularity condition for the deductive outputs that enable the once-inferred energy-curvature tensor $\mathbf{G}{LM}$ to replace the deep neural network of power law graph attention (PLGA) generating the deductive outputs at inference. We demonstrate that a cache for $\mathbf{G}{LM}$ (G-cache) and KV-cache can be implemented in a straightforward manner to improve the inference time. The invariance and generalizable nature of deductive outputs is at a very high fidelity where deductive outputs have same RMSE and determinant values up to 15 decimal places after caching, and zero-shot benchmark scores remain unchanged. Ablation studies show that learned deductive outputs have distinct loss and accuracy characteristics from models pretrained with transferred, randomly initialized or identity tensors as a constant tensor operator and an LLM with scaled-dot product attention (SDPA) is a special case of PLDR-LLM where $\mathbf{G}_{LM}$ is predefined as identity. The observed invariance characteristic introduces a novel asymmetry between training and inference phases with caching. We outline observed common characteristics of the deductive outputs for the learned singularity condition. We provide an implementation of a training and inference framework for PLDR-LLM with KV-cache and G-cache.