HOLa: Zero-Shot HOI Detection with Low-Rank Decomposed VLM Feature Adaptation
作者: Qinqian Lei, Bo Wang, Robby T. Tan
分类: cs.CV
发布日期: 2025-07-21 (更新: 2025-08-04)
备注: Accepted by ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
HOLa:一种基于低秩分解VLM特征自适应的零样本HOI检测方法
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)
关键词: 零样本学习 人-物交互检测 视觉-语言模型 低秩分解 特征自适应
📋 核心要点
- 现有零样本HOI检测方法难以区分涉及相同对象的动作,且对未见类别的泛化能力有限。
- HOLa通过低秩分解VLM文本特征,生成类共享的基础特征和可适应的权重,增强泛化能力。
- 引入LLM派生的动作正则化指导权重调整,提升未见动作的区分能力,并在HICO-DET上取得SOTA。
📝 摘要(中文)
零样本人-物交互(HOI)检测仍然是一项具有挑战性的任务,尤其是在推广到未见过的动作时。现有方法通过利用视觉-语言模型(VLM)来访问训练数据之外的知识来解决这一挑战。然而,它们要么难以区分涉及相同对象的动作,要么对未见过的类别的泛化能力有限。本文提出了一种名为HOLa(基于低秩分解VLM特征自适应的零样本HOI检测)的新方法,该方法既增强了对未见过的类别的泛化能力,又提高了动作区分能力。在训练中,HOLa通过低秩分解分解给定HOI类别的VLM文本特征,生成类共享的基础特征和可适应的权重。这些特征和权重形成了一个紧凑的HOI表示,保留了跨类别的共享信息,从而增强了对未见过的类别的泛化能力。随后,我们通过调整每个HOI类别的权重并引入人-物token来丰富视觉交互表示,从而改进了动作区分。为了进一步区分未见过的动作,我们使用LLM派生的动作正则化来指导权重调整。实验结果表明,我们的方法在HICO-DET上的零样本HOI设置中取得了新的state-of-the-art,在未见过的动词设置中实现了27.91的未见类别mAP。
🔬 方法详解
问题定义:零样本HOI检测旨在识别图像中人和物体之间的交互关系,尤其是在没有见过这些交互类型的情况下。现有方法依赖于视觉-语言模型(VLM)的知识迁移,但它们在区分相似动作以及泛化到未见过的类别时表现不佳。痛点在于如何有效地利用VLM的知识,同时避免过拟合训练数据,并提升对新交互类型的识别能力。
核心思路:HOLa的核心思路是通过低秩分解来解耦VLM文本特征,从而学习到类共享的基础特征和特定于HOI类别的可适应权重。这种分解方式能够保留跨类别的共享信息,增强泛化能力。同时,利用LLM的知识来正则化权重学习,进一步提升对未见动作的区分能力。
技术框架:HOLa的整体框架包括以下几个主要阶段:1) VLM特征提取:使用VLM提取HOI类别的文本特征。2) 低秩分解:将VLM文本特征分解为类共享的基础特征和可适应的权重。3) 视觉交互表示增强:引入人-物token来丰富视觉交互表示。4) 权重自适应:根据HOI类别和LLM的指导,自适应地调整权重。5) HOI检测:利用学习到的特征和权重进行HOI检测。
关键创新:HOLa的关键创新在于:1) 低秩分解的VLM特征自适应:通过低秩分解,有效地利用了VLM的知识,并提升了泛化能力。2) LLM指导的动作正则化:利用LLM的知识来正则化权重学习,从而提升了对未见动作的区分能力。
关键设计:1) 低秩分解的秩的选择:秩的选择会影响模型的泛化能力和表达能力。论文中可能采用了实验或启发式方法来选择合适的秩。2) LLM指导的动作正则化损失函数:具体形式未知,但推测是利用LLM提供的动作相似度信息来约束权重学习,使得相似动作的权重也相似。3) 人-物token的引入方式:具体如何将人-物token融入视觉交互表示中未知,可能采用concat或attention机制。
🖼️ 关键图片
📊 实验亮点
HOLa在HICO-DET数据集上取得了显著的性能提升,在未见动词设置下,实现了27.91的mAP,超越了现有的零样本HOI检测方法,确立了新的state-of-the-art。这表明HOLa在泛化到未见交互类型方面具有显著优势。
🎯 应用场景
HOLa在机器人交互、视频监控、自动驾驶等领域具有广泛的应用前景。例如,在机器人交互中,HOLa可以帮助机器人理解人类的意图,从而更好地完成任务。在视频监控中,HOLa可以自动检测异常行为,提高安全性。在自动驾驶中,HOLa可以帮助车辆理解行人的行为,从而提高安全性。
📄 摘要(原文)
Zero-shot human-object interaction (HOI) detection remains a challenging task, particularly in generalizing to unseen actions. Existing methods address this challenge by tapping Vision-Language Models (VLMs) to access knowledge beyond the training data. However, they either struggle to distinguish actions involving the same object or demonstrate limited generalization to unseen classes. In this paper, we introduce HOLa (Zero-Shot HOI Detection with Low-Rank Decomposed VLM Feature Adaptation), a novel approach that both enhances generalization to unseen classes and improves action distinction. In training, HOLa decomposes VLM text features for given HOI classes via low-rank factorization, producing class-shared basis features and adaptable weights. These features and weights form a compact HOI representation that preserves shared information across classes, enhancing generalization to unseen classes. Subsequently, we refine action distinction by adapting weights for each HOI class and introducing human-object tokens to enrich visual interaction representations. To further distinguish unseen actions, we guide the weight adaptation with LLM-derived action regularization. Experimental results show that our method sets a new state-of-the-art across zero-shot HOI settings on HICO-DET, achieving an unseen-class mAP of 27.91 in the unseen-verb setting. Our code is available at https://github.com/ChelsieLei/HOLa.