Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity

作者: MingZe Tang, Jubal Chandy Jacob

分类: cs.CV, cs.AI

发布日期: 2025-10-15

💡 一句话要点

利用语言标签进行零样本多模态分类，解决数据稀缺下的日常姿态识别问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 多模态分类 视觉-语言模型 提示词工程 人体姿态识别

📋 核心要点

现有方法在数据稀缺场景下，难以有效利用视觉-语言模型进行细粒度姿态识别，提示词设计的影响尚不明确。
论文探索了不同详细程度的提示词对零样本姿态分类的影响，旨在找到最佳的提示词设计策略。
实验表明，对于高性能模型，简单提示词优于复杂提示词，并提出了“提示词过拟合”现象。

📝 摘要（中文）

本文研究了在数据稀缺条件下，如何利用视觉-语言模型（VLM）进行零样本分类，特别关注了提示词设计对识别视觉相似类别（如人体姿态）的影响。研究使用一个由285张COCO图像衍生的数据集，评估了OpenCLIP、MetaCLIP 2和SigLip等模型在坐、站、走/跑三种姿态分类上的表现。通过系统地增加语言细节的三层提示词设计，发现了一个违反直觉的趋势：对于MetaCLIP 2和OpenCLIP等高性能模型，最简单、最基础的提示词效果最佳。添加描述性细节会显著降低性能，例如MetaCLIP 2的多类精度从68.8%降至55.1%，这种现象被称为“提示词过拟合”。相反，对于性能较低的SigLip模型，更具描述性的、基于身体线索的提示词可以改善模糊类别的分类。

🔬 方法详解

问题定义：论文旨在解决数据稀缺场景下，利用视觉-语言模型进行人体日常姿态（坐、站、走/跑）零样本分类的问题。现有方法在提示词设计上缺乏系统性研究，难以充分发挥视觉-语言模型的潜力，尤其是在视觉相似类别的区分上表现不佳。

核心思路：论文的核心思路是通过系统性地设计不同详细程度的提示词，探究提示词的特异性对零样本分类性能的影响。作者假设，更详细的提示词能够提供更丰富的信息，从而提高分类精度。但实验结果表明，对于高性能模型，简单的提示词反而更有效，这表明可能存在“提示词过拟合”现象。

技术框架：研究采用了一个三层提示词设计框架，逐步增加提示词的语言细节。具体来说，第一层使用最简单的提示词（如“sitting”），第二层增加一些描述性词语（如“a person sitting”），第三层则包含更详细的身体线索（如“a person sitting with their legs bent”）。然后，使用这些提示词对OpenCLIP、MetaCLIP 2和SigLip等视觉-语言模型进行零样本分类，并比较不同提示词下的分类精度。

关键创新：论文最重要的创新点在于发现了“提示词过拟合”现象，即对于高性能视觉-语言模型，更详细的提示词反而会降低分类精度。这与直觉相反，表明在零样本分类中，提示词的设计需要仔细权衡，避免过度拟合训练数据中的偏差。

关键设计：论文的关键设计包括：1) 三层提示词设计，系统性地控制提示词的详细程度；2) 使用COCO数据集衍生的一个小规模数据集，模拟数据稀缺场景；3) 评估多个先进的视觉-语言模型，包括OpenCLIP、MetaCLIP 2和SigLip；4) 采用多类精度作为评估指标，衡量分类性能。

📊 实验亮点

实验结果表明，对于MetaCLIP 2和OpenCLIP等高性能模型，最简单的提示词取得了最佳的分类精度。例如，MetaCLIP 2在使用最简单提示词时的多类精度为68.8%，而使用最详细提示词时则降至55.1%。相反，对于SigLip模型，更详细的提示词可以提高分类精度，这表明不同模型的提示词设计策略可能不同。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、康复训练等领域。例如，在智能监控中，可以利用零样本分类技术识别异常姿态，提高安全预警能力。在人机交互中，可以根据用户的姿态进行个性化服务。在康复训练中，可以辅助评估患者的康复进展。未来的研究可以探索更有效的提示词设计方法，提高零样本分类的鲁棒性和泛化能力。

📄 摘要（原文）

Recent Vision-Language Models (VLMs) enable zero-shot classification by aligning images and text in a shared space, a promising approach for data-scarce conditions. However, the influence of prompt design on recognizing visually similar categories, such as human postures, is not well understood. This study investigates how prompt specificity affects the zero-shot classification of sitting, standing, and walking/running on a small, 285-image COCO-derived dataset. A suite of modern VLMs, including OpenCLIP, MetaCLIP 2, and SigLip, were evaluated using a three-tiered prompt design that systematically increases linguistic detail. Our findings reveal a compelling, counter-intuitive trend: for the highest-performing models (MetaCLIP 2 and OpenCLIP), the simplest, most basic prompts consistently achieve the best results. Adding descriptive detail significantly degrades performance for instance, MetaCLIP 2's multi-class accuracy drops from 68.8\% to 55.1\% a phenomenon we term "prompt overfitting". Conversely, the lower-performing SigLip model shows improved classification on ambiguous classes when given more descriptive, body-cue-based prompts.

Language as a Label: Zero-Shot Multimodal Classification of Everyday Postures under Data Scarcity

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册