Leveraging MLLM Embeddings and Attribute Smoothing for Compositional Zero-Shot Learning

📄 arXiv: 2411.12584v2 📥 PDF

作者: Xudong Yan, Songhe Feng, Yang Zhang, Jian Yang, Yueguan Lin, Haojun Fei

分类: cs.CV, cs.AI

发布日期: 2024-11-18 (更新: 2025-06-08)

备注: Accepted by IJCAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出MLLM嵌入与属性平滑引导的解耦框架,提升组合零样本学习性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 组合零样本学习 多模态大语言模型 属性解耦 特征自适应聚合 属性平滑

📋 核心要点

  1. 现有CZSL方法在解耦属性和对象时易受背景干扰,且属性与对象存在复杂纠缠,导致解耦效果不佳。
  2. 论文提出利用MLLM嵌入增强语义表示,并设计特征自适应聚合模块和可学习条件掩码进行更精细的解耦。
  3. 通过LLM生成辅助属性进行属性平滑,缓解模型在已见组合上的过度自信,提升泛化能力,实验结果SOTA。

📝 摘要(中文)

组合零样本学习(CZSL)旨在识别由已见组合学习到的属性和对象的新组合。先前的工作通过提取共享相同属性(对象)的图像对之间的共享和独有部分来解耦属性和对象,并将它们与预训练的词嵌入对齐,以提高未见属性-对象识别的性能。然而,这些方法受到三个限制:(1)解耦的有效性受到背景的影响,以及属性与对象在相同部分中的复杂纠缠。(2)现有的词嵌入无法捕捉复杂的多模态语义信息。(3)现有模型在已见组合上的过度自信阻碍了它们对新组合的泛化能力。针对这些问题,我们提出了一种新的框架,即用于CZSL的多模态大语言模型(MLLM)嵌入和属性平滑引导的解耦。首先,我们利用特征自适应聚合模块来减轻背景的影响,并利用可学习的条件掩码来捕获多粒度特征以进行解耦。此外,MLLM的最后隐藏状态被用作词嵌入,因为它们具有卓越的表示能力。此外,我们提出了使用由大型语言模型(LLM)生成的辅助属性对已见组合进行属性平滑,以解决过度自信的挑战。大量的实验表明,我们的方法在三个具有挑战性的数据集上实现了最先进的性能。源代码将在https://github.com/xud-yan/Trident上提供。

🔬 方法详解

问题定义:组合零样本学习(CZSL)旨在识别未见过的属性-对象组合。现有方法在解耦属性和对象时,容易受到背景噪声的干扰,并且属性与对象在图像特征中存在复杂的纠缠,难以有效分离。此外,传统的词嵌入方法无法充分捕捉属性和对象之间复杂的多模态语义关系,模型在已见组合上容易过拟合,导致泛化能力不足。

核心思路:论文的核心思路是利用多模态大语言模型(MLLM)强大的语义表示能力来增强属性和对象的特征表达,并设计精细的解耦模块来减少背景干扰和属性-对象纠缠。同时,通过引入由大型语言模型(LLM)生成的辅助属性进行属性平滑,从而缓解模型在已见组合上的过度自信,提升模型对未见组合的泛化能力。

技术框架:该框架主要包含三个关键模块:1)特征自适应聚合模块,用于减轻背景噪声的影响;2)可学习条件掩码,用于捕获多粒度特征以进行更精细的属性和对象解耦;3)属性平滑模块,利用LLM生成的辅助属性对已见组合进行平滑处理。整体流程是:首先,输入图像经过特征提取网络得到视觉特征;然后,利用特征自适应聚合模块和可学习条件掩码进行解耦;接着,使用MLLM提取的嵌入向量作为属性和对象的语义表示;最后,通过属性平滑模块缓解过拟合,并进行分类预测。

关键创新:该论文的关键创新点在于:1)利用MLLM的隐藏层状态作为属性和对象的语义嵌入,相比于传统的词嵌入方法,能够更好地捕捉多模态语义信息;2)提出了特征自适应聚合模块和可学习条件掩码,能够更有效地进行属性和对象的解耦,减少背景干扰和属性-对象纠缠;3)引入了基于LLM的属性平滑方法,能够有效缓解模型在已见组合上的过度自信,提升泛化能力。

关键设计:特征自适应聚合模块通过学习权重来动态地聚合不同区域的特征,从而减少背景噪声的影响。可学习条件掩码通过学习不同粒度的掩码来捕获属性和对象的特征。属性平滑模块使用LLM生成的辅助属性来增强已见组合的表示,并使用KL散度损失来约束平滑后的分布与原始分布之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在三个具有挑战性的CZSL数据集上取得了state-of-the-art的性能。相较于之前的最佳方法,在不同数据集上均有显著提升,验证了MLLM嵌入和属性平滑策略的有效性。具体提升幅度未知,但原文强调了“achieves state-of-the-art performance”。

🎯 应用场景

该研究成果可应用于图像识别、智能监控、机器人视觉等领域,尤其是在需要识别新颖组合的场景下,例如识别特定穿着的人、特定场景下的物体等。该方法能够提升零样本学习的性能,降低对大量标注数据的依赖,具有重要的实际应用价值和潜在的商业前景。

📄 摘要(原文)

Compositional zero-shot learning (CZSL) aims to recognize novel compositions of attributes and objects learned from seen compositions. Previous works disentangle attributes and objects by extracting shared and exclusive parts between the image pair sharing the same attribute (object), as well as aligning them with pretrained word embeddings to improve unseen attribute-object recognition. Despite the significant achievements of existing efforts, they are hampered by three limitations: (1) The efficacy of disentanglement is compromised due to the influence of the background and the intricate entanglement of attributes with objects in the same parts. (2) Existing word embeddings fail to capture complex multimodal semantic information. (3) Overconfidence exhibited by existing models in seen compositions hinders their generalization to novel compositions. Being aware of these, we propose a novel framework named multimodal large language model (MLLM) embeddings and attribute smoothing guided disentanglement for CZSL. First, we leverage feature adaptive aggregation modules to mitigate the impact of background, and utilize learnable condition masks to capture multi-granularity features for disentanglement. Moreover, the last hidden states of MLLM are employed as word embeddings for their superior representation capabilities. Furthermore, we propose attribute smoothing with auxiliary attributes generated by the large language model (LLM) for seen compositions to address the overconfidence challenge. Extensive experiments demonstrate that our method achieves state-of-the-art performance on three challenging datasets. The source code will be available at https://github.com/xud-yan/Trident .