Dead Weights, Live Signals: Feedforward Graphs of Frozen Language Models
作者: Marcus Armstrong, Navid Ayoobi, Arjun Mukherjee
分类: cs.LG, cs.AI
发布日期: 2026-04-09
💡 一句话要点
提出基于冻结语言模型的Feedforward图架构,实现知识融合与性能提升
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 知识融合 前馈网络 迁移学习 线性投影 跨注意力 冻结模型
📋 核心要点
- 现有方法难以有效融合多个预训练语言模型的知识,且微调成本高昂。
- 提出一种前馈图架构,利用线性投影将多个冻结LLM的知识融合到共享潜在空间。
- 实验表明,该架构在多个基准测试中显著优于单一模型,且仅需少量可训练参数。
📝 摘要(中文)
本文提出了一种前馈图架构,其中异构的冻结大型语言模型作为计算节点,通过学习到的线性投影,在一个共享的连续潜在空间中进行通信。基于先前研究表明独立训练的LLM潜在空间具有几何兼容性,本文将这一发现从静态的双模型引导扩展到端到端可训练的多节点图。三个小型冻结模型(Llama-3.2-1B、Qwen2.5-1.5B、Gemma-2-2B)将输入编码到共享潜在空间,其聚合信号被注入到两个较大的冻结模型(Phi-3-mini、Mistral-7B)中,它们的表示被输入到一个轻量级的跨注意力输出节点。该架构仅有1760万个可训练参数,而冻结参数约为120亿,在ARC-Challenge上达到87.3%,在OpenBookQA上达到82.8%,在MMLU上达到67.2%,分别超过最佳单一组成模型11.4、6.2和1.2个百分点,并且超过参数匹配的冻结单一模型上的学习分类器9.1、5.2和6.7个百分点。经验证,梯度流通过多个冻结模型边界是可行的,并且输出节点在没有明确监督的情况下,在第2层节点之间发展出选择性路由行为。
🔬 方法详解
问题定义:现有方法在利用多个预训练语言模型时,通常需要对整个模型进行微调,计算成本高昂,且容易过拟合。此外,如何有效地融合不同模型的知识,也是一个挑战。直接组合多个模型的输出可能无法达到最佳效果,因为不同模型可能具有不同的知识表示和偏差。
核心思路:本文的核心思路是利用冻结的预训练语言模型作为知识来源,通过学习线性投影将它们的知识映射到一个共享的潜在空间中。这样,可以避免对整个模型进行微调,降低计算成本,同时实现知识的有效融合。通过构建前馈图,可以实现不同模型之间的信息传递和交互。
技术框架:该架构包含多个冻结的预训练语言模型,分为编码器和解码器两部分。编码器由三个小型冻结模型(Llama-3.2-1B、Qwen2.5-1.5B、Gemma-2-2B)组成,它们将输入编码到共享潜在空间。解码器由两个较大的冻结模型(Phi-3-mini、Mistral-7B)组成,它们的表示被输入到一个轻量级的跨注意力输出节点。编码器的输出通过学习到的线性投影矩阵映射到共享潜在空间,然后聚合信号并注入到解码器中。输出节点利用跨注意力机制,从解码器的输出中提取相关信息,并生成最终的预测结果。
关键创新:最重要的技术创新点在于利用线性投影将多个冻结语言模型的知识融合到共享潜在空间。与直接微调整个模型相比,这种方法可以显著降低计算成本,同时实现知识的有效融合。此外,通过构建前馈图,可以实现不同模型之间的信息传递和交互,从而提高模型的性能。
关键设计:该架构的关键设计包括:1) 使用冻结的预训练语言模型作为知识来源,避免对整个模型进行微调;2) 使用线性投影将不同模型的知识映射到共享潜在空间;3) 构建前馈图,实现不同模型之间的信息传递和交互;4) 使用轻量级的跨注意力输出节点,从解码器的输出中提取相关信息。可训练参数主要集中在线性投影矩阵和跨注意力输出节点上。损失函数未知,但推测为标准交叉熵损失。
🖼️ 关键图片
📊 实验亮点
该架构在ARC-Challenge上达到87.3%,在OpenBookQA上达到82.8%,在MMLU上达到67.2%,分别超过最佳单一组成模型11.4、6.2和1.2个百分点,并且超过参数匹配的冻结单一模型上的学习分类器9.1、5.2和6.7个百分点。仅使用1760万个可训练参数,而冻结参数约为120亿,实现了显著的性能提升。
🎯 应用场景
该研究成果可应用于各种自然语言处理任务,例如问答、文本分类和文本生成。通过融合多个预训练语言模型的知识,可以提高模型的性能和泛化能力。该方法尤其适用于资源受限的场景,因为它可以避免对整个模型进行微调,降低计算成本。未来,可以将该方法扩展到更大规模的模型和更复杂的任务中。
📄 摘要(原文)
We present a feedforward graph architecture in which heterogeneous frozen large language models serve as computational nodes, communicating through a shared continuous latent space via learned linear projections. Building on recent work demonstrating geometric compatibility between independently trained LLM latent spaces~\cite{armstrong2026thinking}, we extend this finding from static two-model steering to end-to-end trainable multi-node graphs, where projection matrices are optimized jointly via backpropagation through residual stream injection hooks. Three small frozen models (Llama-3.2-1B, Qwen2.5-1.5B, Gemma-2-2B) encode the input into a shared latent space whose aggregate signal is injected into two larger frozen models (Phi-3-mini, Mistral-7B), whose representations feed a lightweight cross-attention output node. With only 17.6M trainable parameters against approximately 12B frozen, the architecture achieves 87.3\% on ARC-Challenge, 82.8\% on OpenBookQA, and 67.2\% on MMLU, outperforming the best single constituent model by 11.4, 6.2, and 1.2 percentage points respectively, and outperforming parameter-matched learned classifiers on frozen single models by 9.1, 5.2, and 6.7 points. Gradient flow through multiple frozen model boundaries is empirically verified to be tractable, and the output node develops selective routing behavior across layer-2 nodes without explicit supervision.