Improving LLM Predictions via Inter-Layer Structural Encoders

📄 arXiv: 2603.22665v1 📥 PDF

作者: Tom Ulanovski, Eyal Blyachman, Maya Bechler-Speicher

分类: cs.CL, cs.LG

发布日期: 2026-03-24

备注: 17 pages, 3 figures. Equal contribution by first two authors


💡 一句话要点

提出Inter-Layer Structural Encoders (ILSE)以提升LLM在分类和语义相似性任务中的预测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 层间信息融合 大型语言模型 Cayley图 结构化编码器 少样本学习

📋 核心要点

  1. 现有LLM预测主要依赖最后一层表示,忽略了中间层可能包含的更优任务相关信息,且不同任务的最佳层不同。
  2. 论文提出Inter-Layer Structural Encoders (ILSE),利用Cayley-Encoder和扩展Cayley图,有效整合LLM各层信息。
  3. 实验结果表明,ILSE在分类和语义相似性任务中显著优于现有方法,尤其在少样本学习中表现出色。

📝 摘要(中文)

大型语言模型(LLM)的标准做法是基于最后一层的token表示进行预测。然而,最近的研究表明,中间层编码了大量信息,这些信息可能包含比最后一层表示更相关的任务特征。重要的是,对于不同的任务,最佳层可能不同。在这项工作中,我们引入了Inter-Layer Structural Encoders (ILSE),这是一种强大的结构化方法,用于从LLM的内部层表示中学习一种有效的表示。ILSE的核心是Cayley-Encoder,这是一种基于数学的几何编码器,它利用扩展Cayley图进行有效的层间信息传播。我们使用9个预训练的LLM(参数范围从1400万到80亿)在13个分类和语义相似性任务中评估ILSE。ILSE始终优于基线和现有方法,在准确率方面实现了高达44%的提升,在相似性指标方面实现了25%的提升。我们进一步表明,ILSE在少样本情况下具有数据效率,并且可以使小型LLM与更大的模型竞争。

🔬 方法详解

问题定义:现有大型语言模型(LLM)的预测通常只依赖于最后一层的token表示,而忽略了中间层可能包含的更丰富的、与特定任务更相关的特征信息。不同任务的最佳层可能不同,简单地使用最后一层表示会造成信息损失,限制模型性能。因此,如何有效利用LLM的各层信息成为了一个关键问题。

核心思路:论文的核心思路是设计一种结构化的编码器,能够有效地整合LLM的各个中间层表示,从而学习到一个更具代表性的、任务相关的表示。这种编码器需要能够捕捉层与层之间的关系,并能够高效地进行信息传播。论文选择使用Cayley图作为底层结构,并设计了Cayley-Encoder来实现这一目标。

技术框架:ILSE (Inter-Layer Structural Encoders) 的整体框架如下:首先,将输入文本通过LLM,得到每一层的token表示。然后,将这些层表示输入到ILSE中。ILSE的核心是Cayley-Encoder,它利用扩展Cayley图来连接不同的层,并通过图上的消息传递机制来融合信息。最终,ILSE输出一个融合了所有层信息的表示,用于下游任务的预测。

关键创新:ILSE的关键创新在于Cayley-Encoder的设计,它是一种基于数学的几何编码器,利用扩展Cayley图进行层间信息传播。与传统的注意力机制或循环神经网络相比,Cayley图具有更好的结构化特性和信息传播效率。此外,ILSE能够自适应地学习不同层的重要性,从而更好地利用LLM的内部表示。

关键设计:Cayley-Encoder的关键设计在于如何构建扩展Cayley图以及如何定义图上的消息传递规则。论文选择使用特定的生成元来构建Cayley图,以保证图的连通性和扩展性。消息传递规则基于图卷积操作,通过聚合邻居节点的信息来更新节点表示。此外,论文还可能使用了残差连接和层归一化等技术来提高模型的训练稳定性和性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ILSE在13个分类和语义相似性任务中,使用9个不同大小的LLM进行了评估,始终优于基线方法和现有技术。在准确率方面,ILSE实现了高达44%的提升,在相似性指标方面实现了25%的提升。此外,ILSE在少样本学习场景下表现出色,能够使小型LLM与更大的模型竞争。

🎯 应用场景

该研究成果可广泛应用于自然语言处理的各种下游任务,如文本分类、情感分析、语义相似度计算等。通过有效利用LLM的中间层信息,可以提升模型在资源受限场景下的性能,例如在移动设备或边缘计算平台上部署小型LLM。此外,该方法还可以用于知识蒸馏,将大型LLM的知识迁移到小型模型中。

📄 摘要(原文)

The standard practice in Large Language Models (LLMs) is to base predictions on the final-layer token representations. Recent studies, however, show that intermediate layers encode substantial information, which may contain more task-relevant features than the final-layer representations alone. Importantly, it was shown that for different tasks, different layers may be optimal. In this work we introduce Inter-Layer Structural Encoders (ILSE), a powerful structural approach to learn one effective representation from the LLM's internal layer representations all together. Central to ILSE is Cayley-Encoder, a mathematically grounded geometric encoder that leverages expander Cayley graphs for efficient inter-layer information propagation. We evaluate ILSE across 13 classification and semantic similarity tasks with 9 pre-trained LLMs ranging from 14 million to 8 billion parameters. ILSE consistently outperforms baselines and existing approaches, achieving up to 44% improvement in accuracy and 25% in similarity metrics. We further show that ILSE is data-efficient in few-shot regimes and can make small LLMs competitive with substantially larger models.