Robust Visual Representation Learning with Multi-modal Prior Knowledge for Image Classification Under Distribution Shift

📄 arXiv: 2410.15981v2 📥 PDF

作者: Hongkuan Zhou, Lavdim Halilaj, Sebastian Monka, Stefan Schmid, Yuqicheng Zhu, Bo Xiong, Steffen Staab

分类: cs.CV, cs.LG

发布日期: 2024-10-21 (更新: 2025-02-12)


💡 一句话要点

提出知识引导的视觉表征学习方法KGV,提升图像分类在分布偏移下的泛化能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉表征学习 知识图谱 多模态学习 分布偏移 图像分类

📋 核心要点

  1. 深度神经网络在计算机视觉领域取得了显著成功,但在训练和测试数据之间存在分布偏移时,性能会显著下降。
  2. 论文提出KGV方法,利用知识图谱和合成图像等多模态先验知识,学习更具鲁棒性的图像表征,从而提升泛化能力。
  3. 实验结果表明,KGV在道路标志分类、mini-ImageNet及其变体以及DVM-CAR数据集上,均表现出更高的准确性和数据效率。

📝 摘要(中文)

本文提出了一种知识引导的视觉表征学习方法(KGV),这是一种基于分布的学习方法,利用多模态先验知识来提高在分布偏移下的泛化能力。它整合了来自两种不同模态的知识:1) 具有层级和关联关系的知识图谱(KG);2) 由KG中语义表示的视觉元素的合成图像。相应的嵌入从给定的模态在公共潜在空间中生成,即来自原始和合成图像的视觉嵌入以及知识图谱嵌入(KGE)。这些嵌入通过一种新颖的基于翻译的KGE方法变体进行对齐,其中KG的节点和关系嵌入分别建模为高斯分布和平移。我们认为,结合多模态先验知识能够对图像表征进行更规则化的学习。因此,模型能够更好地泛化到不同的数据分布。我们在不同的图像分类任务上评估KGV,这些任务具有主要或次要的分布偏移,即来自德国、中国和俄罗斯的数据集的道路标志分类,使用mini-ImageNet数据集及其变体的图像分类,以及DVM-CAR数据集。结果表明,KGV在所有实验中始终表现出更高的准确性和数据效率。

🔬 方法详解

问题定义:论文旨在解决深度神经网络在面对训练数据和测试数据分布不一致时,图像分类性能显著下降的问题。现有方法难以有效利用先验知识,导致模型泛化能力不足。

核心思路:核心思路是利用多模态先验知识,包括知识图谱和合成图像,来引导视觉表征学习。通过将视觉信息和语义知识融合,模型可以学习到更鲁棒、更具泛化能力的图像表征,从而更好地适应分布偏移。

技术框架:KGV方法包含以下主要模块:1) 知识图谱嵌入(KGE)模块,用于学习知识图谱中节点和关系的嵌入表示;2) 合成图像生成模块,根据知识图谱中的语义信息生成视觉元素合成图像;3) 视觉嵌入模块,用于提取原始图像和合成图像的视觉特征;4) 对齐模块,利用基于翻译的KGE方法,将视觉嵌入和知识图谱嵌入对齐到同一潜在空间。

关键创新:最重要的创新点在于提出了一种新颖的基于翻译的KGE方法变体,用于对齐视觉嵌入和知识图谱嵌入。该方法将知识图谱的节点和关系嵌入分别建模为高斯分布和平移,从而更好地捕捉了知识图谱中的不确定性和关系语义。与现有方法相比,KGV能够更有效地利用多模态先验知识,学习更具鲁棒性的图像表征。

关键设计:在对齐模块中,节点嵌入被建模为高斯分布,关系嵌入被建模为平移向量。损失函数的设计目标是最小化视觉嵌入经过关系平移后与目标节点嵌入之间的距离。具体而言,采用了一种基于负采样的对比损失,鼓励正样本对之间的距离更小,负样本对之间的距离更大。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

KGV方法在多个图像分类任务上取得了显著的性能提升。例如,在道路标志分类任务中,KGV在跨数据集的泛化能力上优于现有方法。在mini-ImageNet及其变体数据集上,KGV也表现出更高的准确性和数据效率。具体提升幅度未知,但论文强调了KGV在所有实验中都表现出一致的优势。

🎯 应用场景

该研究成果可应用于各种需要处理分布偏移的图像分类任务,例如自动驾驶中的交通标志识别、医学图像分析中的疾病诊断、以及遥感图像分析中的地物分类等。通过提升模型在不同数据分布下的泛化能力,可以降低模型对训练数据的依赖,提高模型的实用性和可靠性。

📄 摘要(原文)

Despite the remarkable success of deep neural networks (DNNs) in computer vision, they fail to remain high-performing when facing distribution shifts between training and testing data. In this paper, we propose Knowledge-Guided Visual representation learning (KGV) - a distribution-based learning approach leveraging multi-modal prior knowledge - to improve generalization under distribution shift. It integrates knowledge from two distinct modalities: 1) a knowledge graph (KG) with hierarchical and association relationships; and 2) generated synthetic images of visual elements semantically represented in the KG. The respective embeddings are generated from the given modalities in a common latent space, i.e., visual embeddings from original and synthetic images as well as knowledge graph embeddings (KGEs). These embeddings are aligned via a novel variant of translation-based KGE methods, where the node and relation embeddings of the KG are modeled as Gaussian distributions and translations, respectively. We claim that incorporating multi-model prior knowledge enables more regularized learning of image representations. Thus, the models are able to better generalize across different data distributions. We evaluate KGV on different image classification tasks with major or minor distribution shifts, namely road sign classification across datasets from Germany, China, and Russia, image classification with the mini-ImageNet dataset and its variants, as well as the DVM-CAR dataset. The results demonstrate that KGV consistently exhibits higher accuracy and data efficiency across all experiments.