Visual Interestingness Decoded: How GPT-4o Mirrors Human Interests
作者: Fitim Abdullahu, Helmut Grabner
分类: cs.CV
发布日期: 2025-10-15
备注: ICCV 2025
💡 一句话要点
探索GPT-4o对视觉趣味性的理解,并用于提升学习排序模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉趣味性 GPT-4o 多模态模型 学习排序 知识蒸馏
📋 核心要点
- 现有方法难以准确捕捉和量化人类对视觉内容的兴趣偏好,缺乏有效模型。
- 利用GPT-4o理解视觉趣味性,通过对比分析评估其与人类判断的一致性。
- GPT-4o在视觉趣味性理解上表现出潜力,可用于标注数据并蒸馏到排序模型。
📝 摘要(中文)
视觉趣味性,即吸引和保持人们注意力的能力,对我们的日常生活至关重要。本文旨在探索大规模多模态模型(LMMs)在理解视觉趣味性方面的潜力。通过对比分析,研究了领先的LMM——GPT-4o的预测与人类评估之间的一致性。研究表明,GPT-4o在一定程度上捕捉到了视觉趣味性的概念,其表现优于现有技术。因此,该模型可以有效地标注图像对的趣味性,这些标注数据被用于知识蒸馏,训练一个学习排序模型。这些发现为更深入地理解人类兴趣开辟了道路。
🔬 方法详解
问题定义:论文旨在解决如何让机器理解并预测人类对视觉内容的“趣味性”这一问题。现有方法要么依赖人工标注,成本高昂且主观性强,要么难以有效捕捉图像的复杂特征和人类的微妙偏好。因此,如何利用大规模数据和先进模型自动学习视觉趣味性是一个挑战。
核心思路:论文的核心思路是利用预训练的大型多模态模型GPT-4o,凭借其在海量视觉和文本数据上的训练,来模拟人类对视觉趣味性的判断。通过对比GPT-4o的预测和人类的评估,验证其理解视觉趣味性的能力,并利用其进行数据标注,进而训练一个更轻量级的学习排序模型。
技术框架:整体流程包括三个主要阶段:1) 使用GPT-4o对图像对的趣味性进行排序和标注;2) 将GPT-4o的排序结果与人类评估进行对比,评估GPT-4o的性能;3) 使用GPT-4o标注的数据训练一个学习排序模型,将GPT-4o的知识蒸馏到该模型中。
关键创新:论文的关键创新在于利用GPT-4o这种大规模预训练模型来理解和预测视觉趣味性。与传统方法相比,GPT-4o无需人工设计特征,能够自动学习图像的复杂特征和人类的偏好。此外,通过知识蒸馏,可以将GPT-4o的知识迁移到一个更轻量级的模型中,使其更易于部署和应用。
关键设计:论文的关键设计包括:1) 精心设计的图像对,用于评估GPT-4o的排序能力;2) 使用合适的损失函数(例如排序损失)来训练学习排序模型;3) 详细对比GPT-4o和人类评估结果,分析其优势和不足。
📊 实验亮点
实验结果表明,GPT-4o在理解视觉趣味性方面表现出一定的能力,其预测结果与人类评估具有一定的相关性。此外,使用GPT-4o标注的数据训练的学习排序模型,在性能上优于其他基线方法。这些结果验证了利用大规模预训练模型理解视觉趣味性的可行性,并为后续研究提供了有益的参考。
🎯 应用场景
该研究成果可应用于图像推荐系统、广告投放、内容创作等领域。通过理解用户的视觉兴趣,可以更精准地推荐用户感兴趣的图像内容,提高用户满意度和参与度。此外,该技术还可以用于辅助内容创作者,帮助他们创作更吸引人的视觉内容。未来,该研究可以扩展到视频领域,实现更广泛的应用。
📄 摘要(原文)
Our daily life is highly influenced by what we consume and see. Attracting and holding one's attention -- the definition of (visual) interestingness -- is essential. The rise of Large Multimodal Models (LMMs) trained on large-scale visual and textual data has demonstrated impressive capabilities. We explore these models' potential to understand to what extent the concepts of visual interestingness are captured and examine the alignment between human assessments and GPT-4o's, a leading LMM, predictions through comparative analysis. Our studies reveal partial alignment between humans and GPT-4o. It already captures the concept as best compared to state-of-the-art methods. Hence, this allows for the effective labeling of image pairs according to their (commonly) interestingness, which are used as training data to distill the knowledge into a learning-to-rank model. The insights pave the way for a deeper understanding of human interest.