OTTER: Open-Tagging via Text-Image Representation for Multi-modal Understanding

📄 arXiv: 2510.00652v1 📥 PDF

作者: Jieer Ouyang, Xiaoneng Xiang, Zheng Wang, Yangkai Ding

分类: cs.CV

发布日期: 2025-10-01

备注: Accepted at ICDM 2025 BigIS Workshop


💡 一句话要点

OTTER:通过文本-图像表征进行开放标签多模态理解

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多模态学习 开放集识别 多标签分类 视觉-语言对齐 注意力机制 图像标注 文本理解

📋 核心要点

  1. 现有方法难以兼顾预定义标签的稳定性和用户自定义标签的灵活性,限制了多模态理解的泛化能力。
  2. OTTER通过联合对齐视觉和文本表征与固定及开放集标签嵌入,实现了动态和语义一致的多模态标注。
  3. 实验表明,OTTER在开放集和预定义标签上均取得了优异的性能,显著超越了现有基线方法。

📝 摘要(中文)

我们提出了OTTER,一个统一的开放集多标签标注框架,它协调了预定义类别集合的稳定性和用户驱动的开放标签的适应性。OTTER构建于一个大规模、分层组织的多模态数据集之上,该数据集从不同的在线存储库收集,并通过结合自动视觉-语言标注与人工改进的混合流程进行标注。通过利用多头注意力架构,OTTER将视觉和文本表示与固定和开放集标签嵌入联合对齐,从而实现动态和语义一致的标注。在两个基准数据集上,OTTER始终优于竞争基线:在Otter数据集上实现了0.81的总体F1分数,在Favorite数据集上实现了0.75的总体F1分数,分别超过了次优结果0.10和0.02。OTTER在开放集标签上获得了接近完美的性能,在Otter数据集上的F1分数为0.99,在Favorite数据集上的F1分数为0.97,同时保持了预定义标签上具有竞争力的准确性。这些结果证明了OTTER在桥接闭集一致性和开放词汇灵活性方面对于多模态标注应用的有效性。

🔬 方法详解

问题定义:论文旨在解决多模态数据标注中,如何同时利用预定义的类别体系和用户自定义的开放标签的问题。现有方法通常只关注预定义类别,忽略了用户提供的丰富信息,或者难以保证开放标签的语义一致性,导致标注结果不够全面和准确。

核心思路:OTTER的核心思路是构建一个统一的框架,将视觉和文本信息与预定义标签和开放标签进行联合对齐。通过学习多模态数据的联合表示,模型可以更好地理解图像和文本的语义信息,并将其映射到相应的标签空间。这种方法既能保证预定义标签的准确性,又能充分利用开放标签的灵活性。

技术框架:OTTER的整体架构包含以下几个主要模块:1) 多模态数据收集和标注模块,用于构建大规模、分层组织的多模态数据集;2) 视觉和文本特征提取模块,用于提取图像和文本的特征表示;3) 多头注意力对齐模块,用于将视觉和文本特征与预定义标签和开放标签的嵌入进行对齐;4) 标注预测模块,用于预测图像和文本对应的标签。

关键创新:OTTER的关键创新在于其统一的开放集多标签标注框架,该框架能够同时处理预定义标签和开放标签。通过多头注意力机制,模型可以学习到视觉和文本特征与不同标签之间的复杂关系,从而实现更准确和全面的标注。此外,OTTER还构建了一个大规模、分层组织的多模态数据集,为模型的训练和评估提供了有力支持。

关键设计:OTTER的关键设计包括:1) 使用多头注意力机制来学习视觉和文本特征与标签之间的关系;2) 设计了一种混合标注流程,结合自动视觉-语言标注与人工改进,以提高数据集的质量;3) 采用分层组织的数据集结构,以更好地支持模型的训练和泛化。

📊 实验亮点

OTTER在Otter和Favorite两个基准数据集上取得了显著的性能提升。在Otter数据集上,OTTER的总体F1分数为0.81,超过次优结果0.10。在Favorite数据集上,OTTER的总体F1分数为0.75,超过次优结果0.02。更重要的是,OTTER在开放集标签上获得了接近完美的性能,在Otter数据集上的F1分数为0.99,在Favorite数据集上的F1分数为0.97。

🎯 应用场景

OTTER可应用于图像搜索、内容推荐、社交媒体分析等领域。例如,在图像搜索中,OTTER可以根据用户提供的文本描述和图像内容,准确地识别图像中的物体和场景,从而提高搜索结果的准确性。在内容推荐中,OTTER可以根据用户的兴趣和偏好,推荐相关的图像和文本内容。在社交媒体分析中,OTTER可以分析用户发布的图像和文本信息,了解用户的观点和情感。

📄 摘要(原文)

We introduce OTTER, a unified open-set multi-label tagging framework that harmonizes the stability of a curated, predefined category set with the adaptability of user-driven open tags. OTTER is built upon a large-scale, hierarchically organized multi-modal dataset, collected from diverse online repositories and annotated through a hybrid pipeline combining automated vision-language labeling with human refinement. By leveraging a multi-head attention architecture, OTTER jointly aligns visual and textual representations with both fixed and open-set label embeddings, enabling dynamic and semantically consistent tagging. OTTER consistently outperforms competitive baselines on two benchmark datasets: it achieves an overall F1 score of 0.81 on Otter and 0.75 on Favorite, surpassing the next-best results by margins of 0.10 and 0.02, respectively. OTTER attains near-perfect performance on open-set labels, with F1 of 0.99 on Otter and 0.97 on Favorite, while maintaining competitive accuracy on predefined labels. These results demonstrate OTTER's effectiveness in bridging closed-set consistency with open-vocabulary flexibility for multi-modal tagging applications.