Perception of Visual Content: Differences Between Humans and Foundation Models

作者: Nardiena A. Pratama, Shaoyang Fan, Gianluca Demartini

分类: cs.CV, cs.LG

发布日期: 2024-11-28 (更新: 2025-04-27)

备注: 12 pages (including references), 5 figures, 5 tables, and a paper/ethics checklist. Camera-Ready Copy for ICWSM 2025. This version uses the same results as the previously posted revise-and-resubmit version. Changes are mostly formatting adjustments

💡 一句话要点

对比人类与AI对视觉内容的感知差异，揭示其对模型性能与偏见的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉内容理解 人类标注 机器标注 多模态模型 模型偏见 图像分类 回归分析

📋 核心要点

现有机器学习模型训练依赖大量人工标注数据，但人工标注成本高昂且存在主观性。
本研究对比分析人类与多模态基础模型对图像的感知差异，旨在理解内容理解的潜在偏见。
实验结果表明，机器标注在某些任务上优于人工标注，但人工标注在非动作类别上更有效。

📝 摘要（中文）

本研究旨在探索人类标注与机器学习（ML）生成标注在图像理解上的相似性，并分析其对ML模型性能和偏见的影响。研究选取了来自不同社会经济背景的图像数据集，涵盖了不同地理区域和收入水平的人群的日常活动和家庭环境。结果表明，ML标注与人类标注在低层次上（如词汇类型和句子结构）表现出最高的相似性，但在跨区域图像感知上保持一致。ML生成的图像描述在区域分类任务中表现最佳，而在收入回归任务中，ML对象检测和图像描述表现最佳。ML标注在动作类别上表现出色，而人类标注在非动作类别上更有效。研究强调了人类和机器标注的重要性，并指出人类标注在当前阶段仍不可替代。

🔬 方法详解

问题定义：论文旨在解决人类标注与机器标注在视觉内容理解上的差异问题，以及这种差异对机器学习模型性能和偏见的影响。现有方法依赖于大量人工标注，成本高昂且易受主观因素影响，而新兴的多模态基础模型在一定程度上可以替代人工标注，但其感知能力与人类的差异尚不明确。

核心思路：论文的核心思路是通过对比分析人类标注和机器标注在图像理解上的差异，来评估机器标注的有效性和潜在偏见。通过分析不同社会经济背景下的图像，研究试图揭示人类和机器在感知和理解图像内容方面的差异，并探讨这些差异对模型性能和公平性的影响。

技术框架：研究的技术框架主要包括以下几个步骤：1）构建包含来自不同地理区域和收入水平人群的图像数据集；2）使用人类标注和机器标注（包括图像描述和对象检测）对图像进行标注；3）对比分析人类标注和机器标注在词汇类型、句子结构和图像感知方面的相似性和差异；4）使用不同类型的标注训练机器学习模型，并在区域分类和收入回归任务上评估模型性能；5）分析模型在不同人群上的表现，评估潜在的偏见。

关键创新：论文的关键创新在于系统性地对比分析了人类标注和机器标注在视觉内容理解上的差异，并将其与模型性能和偏见联系起来。该研究不仅揭示了人类和机器在感知图像内容方面的差异，还探讨了这些差异对模型训练和应用的影响，为更好地利用机器标注和减少模型偏见提供了新的视角。

关键设计：论文的关键设计包括：1）构建具有代表性的图像数据集，涵盖不同社会经济背景的人群；2）采用多种机器标注方法，包括图像描述和对象检测，以全面评估机器的感知能力；3）使用区域分类和收入回归任务来评估模型性能，并分析模型在不同人群上的表现；4）采用多种指标来衡量人类标注和机器标注的相似性和差异，包括词汇类型、句子结构和图像感知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ML生成的图像描述在区域分类任务中表现最佳，而ML对象检测和图像描述在收入回归任务中表现最佳。ML标注在动作类别上表现出色，而人类标注在非动作类别上更有效。这些结果表明，机器标注在某些任务上可以替代甚至优于人工标注，但在其他任务上仍需要人工干预。

🎯 应用场景

该研究成果可应用于改进图像标注流程，例如，结合人类和机器标注的优势，提高标注效率和质量。此外，该研究有助于开发更公平、更可靠的机器学习模型，减少模型在不同人群上的偏见，从而在医疗诊断、自动驾驶等领域实现更安全、更可靠的应用。

📄 摘要（原文）

Human-annotated content is often used to train machine learning (ML) models. However, recently, language and multi-modal foundational models have been used to replace and scale-up human annotator's efforts. This study explores the similarity between human-generated and ML-generated annotations of images across diverse socio-economic contexts (RQ1) and their impact on ML model performance and bias (RQ2). We aim to understand differences in perception and identify potential biases in content interpretation. Our dataset comprises images of people from various geographical regions and income levels, covering various daily activities and home environments. ML captions and human labels show highest similarity at a low-level, i.e., types of words that appear and sentence structures, but all annotations are consistent in how they perceive images across regions. ML Captions resulted in best overall region classification performance, while ML Objects and ML Captions performed best overall for income regression. ML annotations worked best for action categories, while human input was more effective for non-action categories. These findings highlight the notion that both human and machine annotations are important, and that human-generated annotations are yet to be replaceable.

Perception of Visual Content: Differences Between Humans and Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理