Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity
作者: MingZe Tang, Jubal Chandy Jacob
分类: cs.CV, cs.AI
发布日期: 2025-10-15
💡 一句话要点
利用语言标签进行零样本多模态分类,解决数据稀缺下的日常姿态识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本学习 多模态分类 视觉-语言模型 提示词工程 人体姿态识别
📋 核心要点
- 现有方法在数据稀缺场景下,难以有效利用视觉-语言模型进行细粒度姿态识别,提示词设计的影响尚不明确。
- 论文探索了不同详细程度的提示词对零样本姿态分类的影响,旨在找到最佳的提示词设计策略。
- 实验表明,对于高性能模型,简单提示词优于复杂提示词,并提出了“提示词过拟合”现象。
📝 摘要(中文)
本文研究了在数据稀缺条件下,如何利用视觉-语言模型(VLM)进行零样本分类,特别关注了提示词设计对识别视觉相似类别(如人体姿态)的影响。研究使用一个由285张COCO图像衍生的数据集,评估了OpenCLIP、MetaCLIP 2和SigLip等模型在坐、站、走/跑三种姿态分类上的表现。通过系统地增加语言细节的三层提示词设计,发现了一个违反直觉的趋势:对于MetaCLIP 2和OpenCLIP等高性能模型,最简单、最基础的提示词效果最佳。添加描述性细节会显著降低性能,例如MetaCLIP 2的多类精度从68.8%降至55.1%,这种现象被称为“提示词过拟合”。相反,对于性能较低的SigLip模型,更具描述性的、基于身体线索的提示词可以改善模糊类别的分类。
🔬 方法详解
问题定义:论文旨在解决数据稀缺场景下,利用视觉-语言模型进行人体日常姿态(坐、站、走/跑)零样本分类的问题。现有方法在提示词设计上缺乏系统性研究,难以充分发挥视觉-语言模型的潜力,尤其是在视觉相似类别的区分上表现不佳。
核心思路:论文的核心思路是通过系统性地设计不同详细程度的提示词,探究提示词的特异性对零样本分类性能的影响。作者假设,更详细的提示词能够提供更丰富的信息,从而提高分类精度。但实验结果表明,对于高性能模型,简单的提示词反而更有效,这表明可能存在“提示词过拟合”现象。
技术框架:研究采用了一个三层提示词设计框架,逐步增加提示词的语言细节。具体来说,第一层使用最简单的提示词(如“sitting”),第二层增加一些描述性词语(如“a person sitting”),第三层则包含更详细的身体线索(如“a person sitting with their legs bent”)。然后,使用这些提示词对OpenCLIP、MetaCLIP 2和SigLip等视觉-语言模型进行零样本分类,并比较不同提示词下的分类精度。
关键创新:论文最重要的创新点在于发现了“提示词过拟合”现象,即对于高性能视觉-语言模型,更详细的提示词反而会降低分类精度。这与直觉相反,表明在零样本分类中,提示词的设计需要仔细权衡,避免过度拟合训练数据中的偏差。
关键设计:论文的关键设计包括:1) 三层提示词设计,系统性地控制提示词的详细程度;2) 使用COCO数据集衍生的一个小规模数据集,模拟数据稀缺场景;3) 评估多个先进的视觉-语言模型,包括OpenCLIP、MetaCLIP 2和SigLip;4) 采用多类精度作为评估指标,衡量分类性能。
📊 实验亮点
实验结果表明,对于MetaCLIP 2和OpenCLIP等高性能模型,最简单的提示词取得了最佳的分类精度。例如,MetaCLIP 2在使用最简单提示词时的多类精度为68.8%,而使用最详细提示词时则降至55.1%。相反,对于SigLip模型,更详细的提示词可以提高分类精度,这表明不同模型的提示词设计策略可能不同。
🎯 应用场景
该研究成果可应用于智能监控、人机交互、康复训练等领域。例如,在智能监控中,可以利用零样本分类技术识别异常姿态,提高安全预警能力。在人机交互中,可以根据用户的姿态进行个性化服务。在康复训练中,可以辅助评估患者的康复进展。未来的研究可以探索更有效的提示词设计方法,提高零样本分类的鲁棒性和泛化能力。
📄 摘要(原文)
Recent Vision-Language Models (VLMs) enable zero-shot classification by aligning images and text in a shared space, a promising approach for data-scarce conditions. However, the influence of prompt design on recognizing visually similar categories, such as human postures, is not well understood. This study investigates how prompt specificity affects the zero-shot classification of sitting, standing, and walking/running on a small, 285-image COCO-derived dataset. A suite of modern VLMs, including OpenCLIP, MetaCLIP 2, and SigLip, were evaluated using a three-tiered prompt design that systematically increases linguistic detail. Our findings reveal a compelling, counter-intuitive trend: for the highest-performing models (MetaCLIP 2 and OpenCLIP), the simplest, most basic prompts consistently achieve the best results. Adding descriptive detail significantly degrades performance for instance, MetaCLIP 2's multi-class accuracy drops from 68.8\% to 55.1\% a phenomenon we term "prompt overfitting". Conversely, the lower-performing SigLip model shows improved classification on ambiguous classes when given more descriptive, body-cue-based prompts.