TextTeacher: What Can Language Teach About Images?

📄 arXiv: 2605.22098v1 📥 PDF

作者: Tobias Christian Nauen, Stanislav Frolov, Brian Bernhard Moser, Federico Raue, Ahmed Anwar, Andreas Dengel

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-21

备注: Published at TMLR

期刊: Transactions on Machine Learning Research, ISSN 2835-8856, 2026


💡 一句话要点

TextTeacher:利用语言模型知识提升图像分类模型性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像分类 文本嵌入 知识迁移 视觉模型 辅助训练

📋 核心要点

  1. 现有视觉模型训练缺乏语义信息引导,导致模型泛化能力受限。
  2. TextTeacher利用图像标题的文本嵌入作为语义锚点,引导视觉模型学习更丰富的特征表示。
  3. 实验表明,TextTeacher在ImageNet上显著提升了ViT模型的准确率,并改善了迁移学习性能。

📝 摘要(中文)

本文提出TextTeacher,一种简单的辅助目标,旨在将文本嵌入作为附加信息注入到图像分类训练中,从而利用语言模型的语义知识来提升视觉模型性能。TextTeacher使用现成的图像标题、预训练且冻结的文本编码器以及轻量级投影层,生成语义锚点,在训练过程中有效地引导表征,同时保持推理时模型不变。在ImageNet上,使用标准的ViT骨干网络,TextTeacher将准确率提高了高达+2.7个百分点,并在相同的配置和计算量下产生了持续的迁移增益(平均+1.0个百分点)。它优于视觉知识蒸馏,在恒定计算预算下产生更高的准确率,或者在相似的准确率下速度提高33%。分析表明,TextTeacher充当特征空间预处理器,在训练的初始阶段塑造更深层的网络层,并通过提供互补的语义线索来帮助泛化。TextTeacher增加了可忽略不计的开销,不需要目标模型进行昂贵的多模态训练,并保持了纯视觉模型的简单性和延迟。

🔬 方法详解

问题定义:现有图像分类模型训练主要依赖图像本身的信息,缺乏对图像语义的有效利用。这导致模型在复杂场景下的泛化能力不足,容易受到噪声和干扰的影响。知识蒸馏等方法虽然可以提升性能,但通常需要额外的计算资源或复杂的训练流程。

核心思路:TextTeacher的核心思路是利用图像的文本描述(caption)所蕴含的丰富语义信息,通过预训练的语言模型提取文本嵌入,并将其作为视觉模型的辅助训练目标。这种方法旨在将文本的语义知识迁移到视觉模型中,从而提升模型的表征能力和泛化性能。

技术框架:TextTeacher的整体框架包括以下几个主要模块:1) 图像输入:输入图像数据;2) 视觉编码器:使用预训练的视觉模型(如ViT)提取图像特征;3) 文本编码器:使用预训练的语言模型(如BERT)提取图像标题的文本嵌入;4) 投影层:使用轻量级的线性层将文本嵌入投影到与视觉特征相同的维度空间;5) 辅助损失函数:计算视觉特征与投影后的文本嵌入之间的损失,用于指导视觉模型的训练。整个流程中,文本编码器是冻结的,只训练视觉编码器和投影层。

关键创新:TextTeacher的关键创新在于它提出了一种简单有效的方法,将文本的语义知识注入到视觉模型的训练中,而无需进行复杂的多模态训练。通过使用预训练的语言模型和轻量级的投影层,TextTeacher能够高效地利用图像标题的语义信息,提升视觉模型的性能。此外,TextTeacher在推理阶段不需要使用文本信息,保持了纯视觉模型的简单性和低延迟。

关键设计:TextTeacher的关键设计包括:1) 使用预训练且冻结的文本编码器,避免了从头开始训练多模态模型的复杂性;2) 使用轻量级的线性投影层,将文本嵌入映射到视觉特征空间,降低了计算开销;3) 使用余弦相似度损失函数,鼓励视觉特征与文本嵌入在特征空间中对齐;4) 在训练初期,TextTeacher对深层网络层的影响更大,起到了特征空间预处理的作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TextTeacher在ImageNet图像分类任务上,使用ViT骨干网络,取得了高达+2.7个百分点的准确率提升。在迁移学习任务中,平均提升了+1.0个百分点。与视觉知识蒸馏方法相比,TextTeacher在相同计算预算下取得了更高的准确率,或者在相似准确率下,训练速度提升了33%。这些结果表明,TextTeacher是一种高效且有效的视觉模型训练方法。

🎯 应用场景

TextTeacher可广泛应用于图像分类、目标检测、图像检索等计算机视觉任务中。该方法尤其适用于缺乏标注数据或需要提升模型泛化能力的场景。通过利用图像的文本描述,TextTeacher能够有效地提升视觉模型的性能,降低对大规模标注数据的依赖,并为未来的多模态学习研究提供新的思路。

📄 摘要(原文)

The platonic representation hypothesis suggests that sufficiently large models converge to a shared representation geometry, even across modalities. Motivated by this, we ask: Can the semantic knowledge of a language model efficiently improve a vision model? As an answer, we introduce TextTeacher, a simple auxiliary objective that injects text embeddings as additional information into image classification training. TextTeacher uses readily available image captions, a pre-trained and frozen text encoder, and a lightweight projection to produce semantic anchors that efficiently guide representations during training while leaving the inference-time model unchanged. On ImageNet with standard ViT backbones, TextTeacher improves accuracy by up to +2.7 percentage points (p.p.) and yields consistent transfer gains (on average +1.0 p.p.) under the same recipe and compute. It outperforms vision knowledge distillation, yielding more accuracy at a constant compute budget or similar accuracy, but 33% faster. Our analysis indicates that TextTeacher acts as a feature-space preconditioner, shaping deeper layers in the first stages of training, and aiding generalization by supplying complementary semantic cues. TextTeacher adds negligible overhead, requires no costly multimodal training of the target model and preserves the simplicity and latency of pure vision models. Project page with code and captions: https://nauen-it.de/publications/text-teacher