Modular Multimodal Classification Without Fine-Tuning: A Simple Compositional Approach

作者: Herman Bergström, Aditya Mehrotra, Rahul G. Krishnan

分类: cs.LG

发布日期: 2026-05-20

备注: 30 pages, 17 figures

💡 一句话要点

CoMET：一种无需微调的模块化多模态分类方法，通过组合预训练模型实现

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 预训练模型 特征融合 表格基础模型 零样本学习 迁移学习 PCA降维

📋 核心要点

现有复杂的多模态学习方法依赖于端到端训练，计算成本高昂且不易扩展。
CoMET通过组合冻结的预训练模型，利用PCA降维和表格基础模型进行分类，无需微调。
实验表明，CoMET在多个多模态基准测试中取得了SOTA结果，尤其擅长处理大规模分层分类任务。

📝 摘要（中文）

本文提出CoMET，即“用表格基础模型组合模态编码器”，这是一种简单但极具竞争力的多模态分类方法。该方法将每个模态的数据输入到冻结的预训练骨干网络中，然后使用PCA压缩得到的嵌入向量，并将它们连接起来，作为表格基础模型（TFM）的输入进行预测。研究表明，仅使用PCA就足以作为适配器，从而在各种模态上产生强大而稳健的性能。当基础模型的CLS token与下游任务对齐效果不佳时，本文提出PALPooling，一种轻量级的自适应token池化器，可以持续提高表征质量。通过将强大的冻结表征学习骨干网络与TFM相结合，该方法在各种多模态基准测试中实现了最先进的结果，而无需任何训练。在具有大量细粒度类别空间的分层任务中，该方法能够实现快速且可扩展的分类，处理超过500,000个样本和2,000个类的数据集，而无需任何微调。总的来说，研究结果表明，基础模型的组合是一种简单而强大的开箱即用多模态学习解决方案，挑战了复杂端到端训练管道对于新问题的必要性。

🔬 方法详解

问题定义：论文旨在解决多模态分类问题，现有方法通常需要针对特定任务进行端到端微调，这需要大量的计算资源和时间，并且泛化能力可能受到限制。尤其是在类别数量巨大，数据量庞大的情况下，微调的代价会变得难以接受。

核心思路：论文的核心思路是利用预训练的单模态模型提取特征，然后通过简单的PCA降维和连接操作，将多模态特征融合，最后输入到表格基础模型中进行分类。这种方法避免了端到端微调，降低了计算成本，并且可以利用预训练模型的强大表征能力。

技术框架：CoMET的整体框架包括以下几个主要阶段：1. 单模态特征提取：使用预训练的单模态模型（例如，视觉Transformer，文本Transformer）提取每个模态的特征。2. PCA降维：使用PCA对每个模态的特征进行降维，减少特征维度，提高计算效率。3. 特征融合：将降维后的多模态特征连接起来，形成一个统一的特征向量。4. 表格基础模型分类：将融合后的特征向量输入到表格基础模型中进行分类。如果基础模型的CLS token与下游任务对齐效果不佳，则使用PALPooling进行改进。

关键创新：CoMET的关键创新在于：1. 无需微调：通过组合预训练模型，避免了端到端微调，降低了计算成本。2. PALPooling：提出了一种轻量级的自适应token池化器，可以提高表征质量，尤其是在基础模型的CLS token与下游任务对齐效果不佳时。3. 简单有效：整个框架简单易懂，易于实现，但却取得了SOTA的结果。

关键设计：CoMET的关键设计包括：1. 预训练模型的选择：选择合适的预训练模型对于提取高质量的特征至关重要。2. PCA的维度选择：PCA的维度选择需要在计算效率和表征能力之间进行权衡。3. 表格基础模型的选择：选择合适的表格基础模型对于分类性能至关重要。4. PALPooling的参数设置：PALPooling的参数设置需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

CoMET在多个多模态基准测试中取得了SOTA结果，无需任何微调。例如，在具有超过500,000个样本和2,000个类的数据集上，CoMET能够实现快速且可扩展的分类。PALPooling的引入进一步提升了模型性能，尤其是在基础模型的CLS token与下游任务对齐效果不佳时。

🎯 应用场景

CoMET适用于各种需要多模态信息融合的分类任务，例如医学诊断（图像+文本），情感分析（文本+音频），产品推荐（图像+文本+用户行为）等。该方法尤其适用于大规模、细粒度的分类问题，例如生物信息学中的基因功能预测，可以快速部署和扩展。

📄 摘要（原文）

We introduce CoMET, \textit{\textbf{C}omposing \textbf{M}odality \textbf{E}ncoders with \textbf{T}abular foundation models}, a simple yet highly competitive method for multimodal classification: pass each modality through a frozen pre-trained backbone, compress the resulting embeddings with PCA, and concatenate as input into a Tabular Foundation Model (TFM) for prediction. We show that PCA alone suffices to act as an adaptor yielding strong, robust performance across modalities. When the \texttt{CLS} tokens of the foundation model align poorly with downstream tasks, we propose \textbf{PALPooling}, a lightweight adaptive token pooler that consistently improves representation quality. By composing strong frozen representation learning backbones with TFMs, our approach achieves state-of-the-art results across diverse multimodal benchmarks without any training. On hierarchical tasks with large fine-grained class spaces, our approach enables fast and scalable classification, handling datasets with over 500,000 samples and 2,000 classes without any fine-tuning. Overall, our results show that the composition of foundation models is a simple, yet powerful, out-of-the-box solution for multimodal learning, challenging the necessity of complex, end-to-end training pipelines for new problems.

Modular Multimodal Classification Without Fine-Tuning: A Simple Compositional Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理