Secure Linear Alignment of Large Language Models

📄 arXiv: 2603.18908v1 📥 PDF

作者: Matt Gorbett, Suman Jana

分类: cs.AI

发布日期: 2026-03-19


💡 一句话要点

提出一种安全线性对齐框架,用于跨独立训练的大语言模型进行隐私保护的交叉推理。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 线性对齐 同态加密 隐私保护 跨模型推理 表征学习 大语言模型 安全计算

📋 核心要点

  1. 现有方法难以在安全和隐私约束下,实现独立训练的大语言模型之间的知识共享和协同推理。
  2. 该论文提出一种基于线性对齐和同态加密的框架,在保护客户端查询隐私的同时,实现跨模型推理。
  3. 实验表明,该方法在嵌入分类、分布外检测和文本生成任务上,实现了接近单模型的性能,且推理延迟较低。

📝 摘要(中文)

本文提出了一种隐私保护框架,该框架利用表征收敛性,实现独立训练的语言模型之间的跨域推理。尽管训练目标、架构和数据模态存在差异,语言模型越来越多地表现出学习相似表征的能力。这种新兴的兼容性为跨模型对齐到下游目标提供了新的机会。此外,它还解锁了新的潜在应用领域,例如安全、隐私或竞争约束禁止直接数据或模型共享的场景。该框架学习共享公共数据集上的仿射变换,并应用同态加密来保护客户端在推理期间的查询。通过仅加密线性对齐和分类操作,该方法实现了亚秒级的推理延迟,同时保持了强大的安全保证。本文通过对独立模型最终隐藏状态之间的线性变换学习,对表征收敛性进行了实证研究,并使用嵌入分类和分布外检测评估了这些跨模型映射,观察到模型对之间的性能下降最小。此外,首次证明线性对齐有时可以实现跨独立训练模型的文本生成。

🔬 方法详解

问题定义:现有方法在多个独立训练的大语言模型之间进行推理时,面临数据隐私和模型安全问题。直接共享数据或模型可能违反隐私法规或泄露商业机密。因此,需要在不共享原始数据或模型的情况下,实现跨模型推理,同时保证推理过程的安全性。

核心思路:该论文的核心思路是利用大语言模型之间存在的表征收敛性,即不同模型学习到的表征空间具有一定的相似性。通过学习一个线性变换,将一个模型的表征空间映射到另一个模型的表征空间,从而实现跨模型推理。为了保护客户端查询的隐私,使用同态加密技术对线性变换和分类操作进行加密。

技术框架:该框架包含以下主要模块:1) 表征提取:从独立训练的语言模型中提取最终隐藏状态作为表征。2) 线性对齐:在共享的公共数据集上学习一个仿射变换,将一个模型的表征空间映射到另一个模型的表征空间。3) 同态加密:使用同态加密技术对线性变换和分类操作进行加密,保护客户端查询的隐私。4) 跨模型推理:客户端使用加密后的查询和线性变换进行推理,服务器返回加密后的结果,客户端解密得到最终结果。

关键创新:该论文的关键创新在于:1) 提出了一种基于线性对齐和同态加密的隐私保护跨模型推理框架。2) 首次证明线性对齐有时可以实现跨独立训练模型的文本生成。3) 通过仅加密线性对齐和分类操作,实现了亚秒级的推理延迟,同时保持了强大的安全保证。

关键设计:该论文的关键设计包括:1) 使用仿射变换进行线性对齐,可以更好地捕捉表征空间之间的关系。2) 使用同态加密技术,保证客户端查询的隐私。3) 通过仅加密线性对齐和分类操作,降低了计算复杂度,提高了推理效率。4) 使用共享的公共数据集进行线性对齐,避免了直接共享敏感数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在嵌入分类和分布外检测任务上,实现了接近单模型的性能,且模型对之间的性能下降最小。此外,该论文首次证明线性对齐有时可以实现跨独立训练模型的文本生成。通过仅加密线性对齐和分类操作,该方法实现了亚秒级的推理延迟,满足了实际应用的需求。

🎯 应用场景

该研究成果可应用于多个领域,例如:1) 金融风控:不同银行可以使用独立训练的模型进行风险评估,而无需共享客户数据。2) 医疗诊断:不同医院可以使用独立训练的模型进行疾病诊断,而无需共享患者病历。3) 联邦学习:在数据隐私要求较高的场景下,可以使用该框架进行联邦学习,实现模型协同训练。

📄 摘要(原文)

Language models increasingly appear to learn similar representations, despite differences in training objectives, architectures, and data modalities. This emerging compatibility between independently trained models introduces new opportunities for cross-model alignment to downstream objectives. Moreover, it unlocks new potential application domains, such as settings where security, privacy, or competitive constraints prohibit direct data or model sharing. In this work, we propose a privacy-preserving framework that exploits representational convergence to enable cross-silo inference between independent language models. The framework learns an affine transformation over a shared public dataset and applies homomorphic encryption to protect client queries during inference. By encrypting only the linear alignment and classification operations, the method achieves sub-second inference latency while maintaining strong security guarantees. We support this framework with an empirical investigation into representational convergence, in which we learn linear transformations between the final hidden states of independent models. We evaluate these cross-model mappings on embedding classification and out-of-distribution detection, observing minimal performance degradation across model pairs. Additionally, we show for the first time that linear alignment sometimes enables text generation across independently trained models.