Probing CLIP's Comprehension of 360-Degree Textual and Visual Semantics

📄 arXiv: 2604.24642v1 📥 PDF

作者: Hai Wang, Xiaochen Yang, Mingzhi Dong, Jing-Hao Xue

分类: cs.CV

发布日期: 2026-04-27

备注: Project Page: https://littlewhitesea.github.io/360Semantics.github.io/

🔗 代码/项目: GITHUB


💡 一句话要点

提出新方法评估CLIP对360度文本与视觉语义的理解

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: CLIP模型 360度全景 文本语义 视觉语义 LoRA微调 多模态学习 语义对齐

📋 核心要点

  1. 现有CLIP模型主要训练于透视图像-文本对,缺乏对360度全景图像-文本对的理解能力。
  2. 本文提出通过关键词操作和水平圆形位移评估CLIP对360度文本和视觉语义的理解。
  3. 实验结果显示,CLIP在360度文本语义上表现良好,但在视觉语义上存在局限,微调后有所改善。

📝 摘要(中文)

随着从文本快速生成丰富的360度全景世界的梦想逐渐成为现实,评估其语义对齐能力的能力却存在显著差距。现有的对比语言-图像预训练(CLIP)模型主要基于透视图像-文本对进行训练,尚未有效理解360度全景图像-文本对的独特特征。本文首先引入了360度文本语义和360度视觉语义的概念,并提出了通过关键词操作和不同幅度的水平圆形位移来评估CLIP对这些语义的理解。研究结果表明,CLIP模型能够有效利用显式文本标识符,但在水平圆形位移下未能保持语义对齐,显示出对360度视觉语义理解的局限性。为此,本文提出了一种基于LoRA的微调框架,显著提升了模型对360度视觉语义的理解。

🔬 方法详解

问题定义:本文旨在解决CLIP模型在360度全景图像-文本对的语义理解能力不足的问题。现有方法主要基于透视图像,未能有效评估360度语义对齐的能力。

核心思路:通过引入360度文本语义和360度视觉语义的概念,设计了新的评估方法,以探测CLIP对这些语义的理解。特别是,采用关键词操作和水平圆形位移来测试模型的表现。

技术框架:研究首先定义了360度文本和视觉语义的特征,然后设计了实验流程,包括数据准备、模型评估和统计分析。评估过程中使用了不同的CLIP配置进行对比。

关键创新:本文的创新在于提出了360度文本和视觉语义的概念,并通过LoRA微调框架增强模型对360度视觉语义的理解,这在现有文献中尚未被充分探讨。

关键设计:在微调过程中,采用了特定的损失函数和参数设置,以确保模型能够适应360度全景图像的特性,同时保持对原始语义评估性能的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,CLIP模型在360度文本语义上表现良好,但在水平圆形位移下的语义对齐能力不足。微调后的模型在视觉语义理解上有所提升,但原始语义评估性能略有下降,体现了适应性调整的权衡。

🎯 应用场景

该研究的潜在应用领域包括虚拟现实、游戏开发和全景图像生成等。通过提升CLIP对360度全景图像的理解能力,可以更好地实现从文本到全景图像的转换,推动相关技术的发展与应用。

📄 摘要(原文)

The dream of instantly creating rich 360-degree panoramic worlds from text is rapidly becoming a reality, yet a crucial gap exists in our ability to reliably evaluate their semantic alignment. Contrastive Language-Image Pre-training (CLIP) models, standard AI evaluators, predominantly trained on perspective image-text pairs, face an open question regarding their understanding of the unique characteristics of 360-degree panoramic image-text pairs. This paper addresses this gap by first introducing two concepts: \emph{360-degree textual semantics}, semantic information conveyed by explicit format identifiers, and \emph{360-degree visual semantics}, invariant semantics under horizontal circular shifts. To probe CLIP's comprehension of these semantics, we then propose novel evaluation methodologies using keyword manipulation and horizontal circular shifts of varying magnitudes. Rigorous statistical analyses across popular CLIP configurations reveal that: (1) CLIP models effectively leverage explicit textual identifiers, demonstrating an understanding of 360-degree textual semantics; and (2) CLIP models fail to robustly preserve semantic alignment under horizontal circular shifts, indicating limited comprehension of 360-degree visual semantics. To address this limitation, we propose a LoRA-based fine-tuning framework that explicitly instills invariance to circular shifts. Our fine-tuned models exhibit improved comprehension of 360-degree visual semantics, though with a slight degradation in original semantic evaluation performance, highlighting a fundamental trade-off in adapting CLIP to 360-degree panoramic images. Code is available at https://github.com/littlewhitesea/360Semantics.