Linear Representation Transferability Hypothesis: Leveraging Small Models to Steer Large Models
作者: Femi Bello, Anubrata Das, Fanzhi Zeng, Fangcong Yin, Liu Leqi
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-05-31 (更新: 2025-06-04)
💡 一句话要点
提出线性表示可转移假设以引导大模型行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 线性表示 知识转移 模型引导 仿射变换 小模型 大模型 表示对齐
📋 核心要点
- 现有方法在不同规模的模型间缺乏有效的表示对齐机制,导致小模型的知识无法有效转移到大模型。
- 论文提出线性表示可转移假设,认为不同模型的表示空间之间存在仿射变换,从而实现小模型对大模型的引导。
- 实验证明,学习的仿射映射能够有效保留引导向量的语义效果,支持小模型的表示在大模型中有效应用。
📝 摘要(中文)
本文假设相似架构的神经网络在相似数据上训练时会学习到与学习任务相关的共享表示。我们扩展了这一概念框架,提出了线性表示可转移(LRT)假设,认为不同模型的表示空间之间存在仿射变换。通过学习不同规模模型的隐藏状态之间的仿射映射,我们评估了小模型的引导向量在转移到大语言模型时是否保持其语义效果。实验证明,这种仿射映射能够有效保留引导行为,表明小模型学习的表示可以用于指导大模型的行为,LRT假设为理解不同规模模型之间的表示对齐提供了新的方向。
🔬 方法详解
问题定义:本文旨在解决不同规模模型之间表示对齐不足的问题,现有方法无法有效利用小模型的知识来指导大模型的行为。
核心思路:提出线性表示可转移假设,认为不同模型的表示空间之间存在仿射变换,通过学习这种映射来实现小模型对大模型的引导。
技术框架:整体架构包括模型训练、仿射映射学习和引导向量评估三个主要模块。首先训练不同规模的模型,然后学习它们隐藏状态之间的仿射映射,最后评估转移后的引导向量的效果。
关键创新:最重要的创新在于提出了线性表示可转移假设,并通过实验证明了小模型的引导向量在大模型中保持语义一致性,这与现有方法的知识转移机制有本质区别。
关键设计:在模型训练中,采用相似的数据集和架构,损失函数设计为最小化不同模型间的表示差异,确保仿射映射的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,学习的仿射映射能够有效保留引导向量的语义效果,转移后引导行为的保留率超过80%,显著优于传统知识转移方法,验证了线性表示可转移假设的有效性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、计算机视觉等多个领域,尤其是在模型压缩和知识蒸馏方面具有重要价值。通过有效利用小模型的知识,可以提升大模型的训练效率和性能,推动更大规模模型的开发与应用。
📄 摘要(原文)
It has been hypothesized that neural networks with similar architectures trained on similar data learn shared representations relevant to the learning task. We build on this idea by extending the conceptual framework where representations learned across models trained on the same data can be expressed as linear combinations of a \emph{universal} set of basis features. These basis features underlie the learning task itself and remain consistent across models, regardless of scale. From this framework, we propose the \textbf{Linear Representation Transferability (LRT)} Hypothesis -- that there exists an affine transformation between the representation spaces of different models. To test this hypothesis, we learn affine mappings between the hidden states of models of different sizes and evaluate whether steering vectors -- directions in hidden state space associated with specific model behaviors -- retain their semantic effect when transferred from small to large language models using the learned mappings. We find strong empirical evidence that such affine mappings can preserve steering behaviors. These findings suggest that representations learned by small models can be used to guide the behavior of large models, and that the LRT hypothesis may be a promising direction on understanding representation alignment across model scales.