Sample-efficient Integration of New Modalities into Large Language Models

作者: Osman Batur İnce, André F. T. Martins, Oisin Mac Aodha, Edoardo M. Ponti

分类: cs.CL, cs.AI, cs.CV

发布日期: 2025-09-04

备注: Pre-print

💡 一句话要点

提出SEMI方法，高效地将新模态集成到大型语言模型中

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 模态集成 超网络 样本高效学习

📋 核心要点

现有方法将新模态集成到大型语言模型中，需要大量配对数据，这对于低资源模态是巨大的挑战。
SEMI方法通过训练一个超网络来适配共享投影器，仅需少量样本即可将新模态集成到LLM中。
实验表明，SEMI在少量样本情况下，显著提升了新模态集成的样本效率，例如卫星图像和天文图像。

📝 摘要（中文）

多模态基础模型能够处理多种模态。然而，由于可能的模态空间巨大且不断发展，从头开始训练一个模型来包含所有模态是不可行的。此外，目前将模态集成到预先存在的基础模型中需要大量的配对数据，而对于低资源模态来说，这些数据通常不可用。本文提出了一种用于将新模态高效集成到大型语言模型（LLM）中的方法，称为样本高效模态集成（SEMI）。为此，我们设计了一个超网络，它可以将共享投影器（位于模态特定编码器和LLM之间）适配到任何模态。该超网络在高资源模态（即文本、语音、音频、视频）上进行训练，并在推理时以任意模态的少量样本为条件，以生成合适的适配器。为了增加训练模态的多样性，我们通过等距变换人为地增加编码器的数量。我们发现，SEMI在少量样本情况下集成新模态（即卫星图像、天文图像、惯性测量、分子）时，实现了样本效率的显著提升，且适用于任意嵌入维度的编码器。例如，为了达到与32-shot SEMI相同的精度，从头开始训练投影器需要多64倍的数据。因此，SEMI有望扩展基础模型的模态覆盖范围。

🔬 方法详解

问题定义：论文旨在解决将新的、低资源模态高效地集成到预训练的大型语言模型（LLM）中的问题。现有方法通常需要大量配对数据来训练模态特定的投影层，这对于数据稀缺的模态来说是不可行的。此外，从头开始训练一个包含所有模态的基础模型在计算上是极其昂贵的。

核心思路：论文的核心思路是利用一个超网络（hypernetwork）来生成模态特定的适配器，从而将模态编码器的输出映射到LLM的输入空间。该超网络在高资源模态上进行训练，学习如何根据少量新模态的样本来生成合适的适配器。这种方法避免了为每种新模态从头开始训练投影层，从而显著提高了样本效率。

技术框架：整体框架包括以下几个主要模块：1) 模态特定的编码器，用于将不同模态的数据转换为嵌入向量；2) 一个共享的投影器，用于将编码器的输出映射到LLM的输入空间；3) 一个超网络，用于生成模态特定的适配器，该适配器作用于共享投影器；4) 一个预训练的LLM，用于处理多模态信息。训练过程分为两个阶段：首先，在高资源模态上训练超网络；然后，在少量新模态样本上微调超网络。

关键创新：论文的关键创新在于使用超网络来生成模态特定的适配器。与直接训练模态特定的投影层相比，超网络能够利用在高资源模态上学习到的知识，从而在少量样本情况下实现更好的泛化性能。此外，论文还提出使用等距变换来增加训练模态的多样性，进一步提升了超网络的泛化能力。

关键设计：超网络以少量新模态的样本作为输入，生成适配器的权重。适配器可以是一个简单的线性层或更复杂的神经网络。损失函数通常包括一个重构损失，用于确保适配器能够准确地将模态编码器的输出映射到LLM的输入空间，以及一个正则化项，用于防止过拟合。等距变换通过旋转或反射编码器的输出向量来生成新的训练样本，从而增加训练数据的多样性。

📊 实验亮点

实验结果表明，SEMI方法在少量样本情况下，显著提升了新模态集成的性能。例如，为了达到与32-shot SEMI相同的精度，从头开始训练投影器需要多64倍的数据。SEMI在卫星图像、天文图像、惯性测量和分子等多种模态上都取得了良好的效果，证明了其泛化能力和实用价值。该方法能够处理任意嵌入维度的编码器，进一步增强了其灵活性。

🎯 应用场景

该研究成果可广泛应用于多模态信息处理领域，例如医学影像分析、遥感图像解译、机器人感知等。通过SEMI方法，可以快速将新的传感器数据或数据模态集成到现有的LLM中，从而扩展LLM的应用范围，并降低开发成本。未来，该方法有望推动多模态人工智能的发展，实现更智能、更灵活的人机交互。

📄 摘要（原文）

Multimodal foundation models can process several modalities. However, since the space of possible modalities is large and evolving over time, training a model from scratch to encompass all modalities is unfeasible. Moreover, integrating a modality into a pre-existing foundation model currently requires a significant amount of paired data, which is often not available for low-resource modalities. In this paper, we introduce a method for sample-efficient modality integration (SEMI) into Large Language Models (LLMs). To this end, we devise a hypernetwork that can adapt a shared projector -- placed between modality-specific encoders and an LLM -- to any modality. The hypernetwork, trained on high-resource modalities (i.e., text, speech, audio, video), is conditioned on a few samples from any arbitrary modality at inference time to generate a suitable adapter. To increase the diversity of training modalities, we artificially multiply the number of encoders through isometric transformations. We find that SEMI achieves a significant boost in sample efficiency during few-shot integration of new modalities (i.e., satellite images, astronomical images, inertial measurements, and molecules) with encoders of arbitrary embedding dimensionality. For instance, to reach the same accuracy as 32-shot SEMI, training the projector from scratch needs 64$\times$ more data. As a result, SEMI holds promise to extend the modality coverage of foundation models.

Sample-efficient Integration of New Modalities into Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册