Modular Multimodal Classification Without Fine-Tuning: A Simple Compositional Approach

📄 arXiv: 2605.20674v1 📥 PDF

作者: Herman Bergström, Aditya Mehrotra, Rahul G. Krishnan

分类: cs.LG

发布日期: 2026-05-20

备注: 30 pages, 17 figures


💡 一句话要点

CoMET:一种无需微调的模块化多模态分类方法,通过组合预训练模型实现

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 预训练模型 特征融合 表格基础模型 零样本学习 迁移学习 PCA降维

📋 核心要点

  1. 现有复杂的多模态学习方法依赖于端到端训练,计算成本高昂且不易扩展。
  2. CoMET通过组合冻结的预训练模型,利用PCA降维和表格基础模型进行分类,无需微调。
  3. 实验表明,CoMET在多个多模态基准测试中取得了SOTA结果,尤其擅长处理大规模分层分类任务。

📝 摘要(中文)

本文提出CoMET,即“用表格基础模型组合模态编码器”,这是一种简单但极具竞争力的多模态分类方法。该方法将每个模态的数据输入到冻结的预训练骨干网络中,然后使用PCA压缩得到的嵌入向量,并将它们连接起来,作为表格基础模型(TFM)的输入进行预测。研究表明,仅使用PCA就足以作为适配器,从而在各种模态上产生强大而稳健的性能。当基础模型的CLS token与下游任务对齐效果不佳时,本文提出PALPooling,一种轻量级的自适应token池化器,可以持续提高表征质量。通过将强大的冻结表征学习骨干网络与TFM相结合,该方法在各种多模态基准测试中实现了最先进的结果,而无需任何训练。在具有大量细粒度类别空间的分层任务中,该方法能够实现快速且可扩展的分类,处理超过500,000个样本和2,000个类的数据集,而无需任何微调。总的来说,研究结果表明,基础模型的组合是一种简单而强大的开箱即用多模态学习解决方案,挑战了复杂端到端训练管道对于新问题的必要性。

🔬 方法详解

问题定义:论文旨在解决多模态分类问题,现有方法通常需要针对特定任务进行端到端微调,这需要大量的计算资源和时间,并且泛化能力可能受到限制。尤其是在类别数量巨大,数据量庞大的情况下,微调的代价会变得难以接受。

核心思路:论文的核心思路是利用预训练的单模态模型提取特征,然后通过简单的PCA降维和连接操作,将多模态特征融合,最后输入到表格基础模型中进行分类。这种方法避免了端到端微调,降低了计算成本,并且可以利用预训练模型的强大表征能力。

技术框架:CoMET的整体框架包括以下几个主要阶段:1. 单模态特征提取:使用预训练的单模态模型(例如,视觉Transformer,文本Transformer)提取每个模态的特征。2. PCA降维:使用PCA对每个模态的特征进行降维,减少特征维度,提高计算效率。3. 特征融合:将降维后的多模态特征连接起来,形成一个统一的特征向量。4. 表格基础模型分类:将融合后的特征向量输入到表格基础模型中进行分类。如果基础模型的CLS token与下游任务对齐效果不佳,则使用PALPooling进行改进。

关键创新:CoMET的关键创新在于:1. 无需微调:通过组合预训练模型,避免了端到端微调,降低了计算成本。2. PALPooling:提出了一种轻量级的自适应token池化器,可以提高表征质量,尤其是在基础模型的CLS token与下游任务对齐效果不佳时。3. 简单有效:整个框架简单易懂,易于实现,但却取得了SOTA的结果。

关键设计:CoMET的关键设计包括:1. 预训练模型的选择:选择合适的预训练模型对于提取高质量的特征至关重要。2. PCA的维度选择:PCA的维度选择需要在计算效率和表征能力之间进行权衡。3. 表格基础模型的选择:选择合适的表格基础模型对于分类性能至关重要。4. PALPooling的参数设置:PALPooling的参数设置需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoMET在多个多模态基准测试中取得了SOTA结果,无需任何微调。例如,在具有超过500,000个样本和2,000个类的数据集上,CoMET能够实现快速且可扩展的分类。PALPooling的引入进一步提升了模型性能,尤其是在基础模型的CLS token与下游任务对齐效果不佳时。

🎯 应用场景

CoMET适用于各种需要多模态信息融合的分类任务,例如医学诊断(图像+文本),情感分析(文本+音频),产品推荐(图像+文本+用户行为)等。该方法尤其适用于大规模、细粒度的分类问题,例如生物信息学中的基因功能预测,可以快速部署和扩展。

📄 摘要(原文)

We introduce CoMET, \textit{\textbf{C}omposing \textbf{M}odality \textbf{E}ncoders with \textbf{T}abular foundation models}, a simple yet highly competitive method for multimodal classification: pass each modality through a frozen pre-trained backbone, compress the resulting embeddings with PCA, and concatenate as input into a Tabular Foundation Model (TFM) for prediction. We show that PCA alone suffices to act as an adaptor yielding strong, robust performance across modalities. When the \texttt{CLS} tokens of the foundation model align poorly with downstream tasks, we propose \textbf{PALPooling}, a lightweight adaptive token pooler that consistently improves representation quality. By composing strong frozen representation learning backbones with TFMs, our approach achieves state-of-the-art results across diverse multimodal benchmarks without any training. On hierarchical tasks with large fine-grained class spaces, our approach enables fast and scalable classification, handling datasets with over 500,000 samples and 2,000 classes without any fine-tuning. Overall, our results show that the composition of foundation models is a simple, yet powerful, out-of-the-box solution for multimodal learning, challenging the necessity of complex, end-to-end training pipelines for new problems.