Sample-efficient Integration of New Modalities into Large Language Models

📄 arXiv: 2509.04606v1 📥 PDF

作者: Osman Batur İnce, André F. T. Martins, Oisin Mac Aodha, Edoardo M. Ponti

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-09-04

备注: Pre-print


💡 一句话要点

提出SEMI方法,高效地将新模态集成到大型语言模型中

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 模态集成 超网络 样本高效学习

📋 核心要点

  1. 现有方法将新模态集成到大型语言模型中,需要大量配对数据,这对于低资源模态是巨大的挑战。
  2. SEMI方法通过训练一个超网络来适配共享投影器,仅需少量样本即可将新模态集成到LLM中。
  3. 实验表明,SEMI在少量样本情况下,显著提升了新模态集成的样本效率,例如卫星图像和天文图像。

📝 摘要(中文)

多模态基础模型能够处理多种模态。然而,由于可能的模态空间巨大且不断发展,从头开始训练一个模型来包含所有模态是不可行的。此外,目前将模态集成到预先存在的基础模型中需要大量的配对数据,而对于低资源模态来说,这些数据通常不可用。本文提出了一种用于将新模态高效集成到大型语言模型(LLM)中的方法,称为样本高效模态集成(SEMI)。为此,我们设计了一个超网络,它可以将共享投影器(位于模态特定编码器和LLM之间)适配到任何模态。该超网络在高资源模态(即文本、语音、音频、视频)上进行训练,并在推理时以任意模态的少量样本为条件,以生成合适的适配器。为了增加训练模态的多样性,我们通过等距变换人为地增加编码器的数量。我们发现,SEMI在少量样本情况下集成新模态(即卫星图像、天文图像、惯性测量、分子)时,实现了样本效率的显著提升,且适用于任意嵌入维度的编码器。例如,为了达到与32-shot SEMI相同的精度,从头开始训练投影器需要多64倍的数据。因此,SEMI有望扩展基础模型的模态覆盖范围。

🔬 方法详解

问题定义:论文旨在解决将新的、低资源模态高效地集成到预训练的大型语言模型(LLM)中的问题。现有方法通常需要大量配对数据来训练模态特定的投影层,这对于数据稀缺的模态来说是不可行的。此外,从头开始训练一个包含所有模态的基础模型在计算上是极其昂贵的。

核心思路:论文的核心思路是利用一个超网络(hypernetwork)来生成模态特定的适配器,从而将模态编码器的输出映射到LLM的输入空间。该超网络在高资源模态上进行训练,学习如何根据少量新模态的样本来生成合适的适配器。这种方法避免了为每种新模态从头开始训练投影层,从而显著提高了样本效率。

技术框架:整体框架包括以下几个主要模块:1) 模态特定的编码器,用于将不同模态的数据转换为嵌入向量;2) 一个共享的投影器,用于将编码器的输出映射到LLM的输入空间;3) 一个超网络,用于生成模态特定的适配器,该适配器作用于共享投影器;4) 一个预训练的LLM,用于处理多模态信息。训练过程分为两个阶段:首先,在高资源模态上训练超网络;然后,在少量新模态样本上微调超网络。

关键创新:论文的关键创新在于使用超网络来生成模态特定的适配器。与直接训练模态特定的投影层相比,超网络能够利用在高资源模态上学习到的知识,从而在少量样本情况下实现更好的泛化性能。此外,论文还提出使用等距变换来增加训练模态的多样性,进一步提升了超网络的泛化能力。

关键设计:超网络以少量新模态的样本作为输入,生成适配器的权重。适配器可以是一个简单的线性层或更复杂的神经网络。损失函数通常包括一个重构损失,用于确保适配器能够准确地将模态编码器的输出映射到LLM的输入空间,以及一个正则化项,用于防止过拟合。等距变换通过旋转或反射编码器的输出向量来生成新的训练样本,从而增加训练数据的多样性。

📊 实验亮点

实验结果表明,SEMI方法在少量样本情况下,显著提升了新模态集成的性能。例如,为了达到与32-shot SEMI相同的精度,从头开始训练投影器需要多64倍的数据。SEMI在卫星图像、天文图像、惯性测量和分子等多种模态上都取得了良好的效果,证明了其泛化能力和实用价值。该方法能够处理任意嵌入维度的编码器,进一步增强了其灵活性。

🎯 应用场景

该研究成果可广泛应用于多模态信息处理领域,例如医学影像分析、遥感图像解译、机器人感知等。通过SEMI方法,可以快速将新的传感器数据或数据模态集成到现有的LLM中,从而扩展LLM的应用范围,并降低开发成本。未来,该方法有望推动多模态人工智能的发展,实现更智能、更灵活的人机交互。

📄 摘要(原文)

Multimodal foundation models can process several modalities. However, since the space of possible modalities is large and evolving over time, training a model from scratch to encompass all modalities is unfeasible. Moreover, integrating a modality into a pre-existing foundation model currently requires a significant amount of paired data, which is often not available for low-resource modalities. In this paper, we introduce a method for sample-efficient modality integration (SEMI) into Large Language Models (LLMs). To this end, we devise a hypernetwork that can adapt a shared projector -- placed between modality-specific encoders and an LLM -- to any modality. The hypernetwork, trained on high-resource modalities (i.e., text, speech, audio, video), is conditioned on a few samples from any arbitrary modality at inference time to generate a suitable adapter. To increase the diversity of training modalities, we artificially multiply the number of encoders through isometric transformations. We find that SEMI achieves a significant boost in sample efficiency during few-shot integration of new modalities (i.e., satellite images, astronomical images, inertial measurements, and molecules) with encoders of arbitrary embedding dimensionality. For instance, to reach the same accuracy as 32-shot SEMI, training the projector from scratch needs 64$\times$ more data. As a result, SEMI holds promise to extend the modality coverage of foundation models.