UniAR: A Unified model for predicting human Attention and Responses on visual content

作者: Peizhao Li, Junfeng He, Gang Li, Rachit Bhargava, Shaolei Shen, Nachiappan Valliappan, Youwei Liang, Hongxiang Gu, Venky Ramachandran, Golnaz Farhadi, Yang Li, Kai J Kohlhoff, Vidhya Navalpakkam

分类: cs.CV

发布日期: 2023-12-15 (更新: 2024-10-31)

备注: NeurIPS 2024

💡 一句话要点

UniAR：统一模型预测视觉内容上的人类注意力和响应

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态Transformer 人类注意力预测 偏好预测 统一建模 视觉内容理解

📋 核心要点

现有方法孤立地建模人类的注意力和偏好行为，且通常局限于特定视觉内容类型，缺乏通用性。
UniAR利用多模态Transformer统一建模人类注意力和偏好，能够同时预测主观反馈、注意力热图和观看顺序。
UniAR在多个数据集上实现了SOTA性能，证明了其在不同图像领域和行为建模任务中的有效性。

📝 摘要（中文）

人类行为建模的进展涉及理解隐式的、早期的感知行为（如人类注意力）和显式的、后期的行为（如主观偏好或喜欢）。然而，现有研究大多孤立地对隐式和显式人类行为进行建模，并且通常仅限于特定类型的视觉内容。我们提出了UniAR——一个统一的模型，用于预测跨不同视觉内容的人类注意力和偏好行为。UniAR利用多模态Transformer来预测主观反馈（如满意度或美学质量），以及潜在的人类注意力或交互热图和观看顺序。我们在涵盖自然图像、网页和图形设计的各种公共数据集上训练UniAR，并在跨各种图像领域和行为建模任务的多个基准测试中实现了SOTA性能。潜在的应用包括提供关于UI/视觉内容有效性的即时反馈，并使设计师和内容创建模型能够优化其创作，以实现以人为本的改进。

🔬 方法详解

问题定义：现有方法通常将人类注意力和偏好作为独立的任务进行建模，忽略了它们之间的内在联系。此外，这些方法往往针对特定类型的视觉内容进行优化，缺乏跨领域泛化能力。因此，需要一个统一的模型，能够同时预测不同视觉内容上的人类注意力和偏好。

核心思路：UniAR的核心思路是利用多模态Transformer来融合视觉内容和人类行为数据，从而学习一个统一的表示空间。通过在这个统一空间中进行推理，UniAR可以同时预测人类的注意力和偏好，并捕捉它们之间的相互影响。这种设计允许模型在不同类型的视觉内容上进行泛化。

技术框架：UniAR的整体架构是一个多模态Transformer网络。该网络包含以下主要模块：1) 视觉编码器，用于提取视觉内容的特征；2) 行为编码器，用于编码人类的注意力数据（如热图或观看顺序）；3) 多模态融合模块，用于将视觉特征和行为特征融合在一起；4) 预测模块，用于预测主观反馈（如满意度或美学质量）。整个流程是，输入视觉内容和人类行为数据，经过编码和融合后，最终输出对人类主观反馈的预测。

关键创新：UniAR最重要的技术创新点在于其统一建模框架。与以往孤立地建模注意力和偏好的方法不同，UniAR将它们视为一个整体，并利用多模态Transformer来学习它们之间的关系。这种统一建模方法能够更好地捕捉人类行为的复杂性，并提高预测的准确性。

关键设计：UniAR的关键设计包括：1) 使用预训练的视觉编码器（如ResNet或ViT）来提取视觉特征；2) 使用Transformer编码器来编码人类行为数据；3) 使用交叉注意力机制来实现多模态融合；4) 使用多任务学习目标来同时优化注意力和偏好的预测。具体的损失函数包括用于回归任务的均方误差损失和用于分类任务的交叉熵损失。网络结构的选择和参数设置需要根据具体的数据集和任务进行调整。

📊 实验亮点

UniAR在多个公开数据集上取得了SOTA性能，证明了其有效性。例如，在美学质量评估任务中，UniAR的性能优于现有的最先进方法。此外，UniAR还能够准确地预测人类的注意力热图和观看顺序，为理解人类行为提供了有价值的信息。

🎯 应用场景

UniAR具有广泛的应用前景。它可以用于评估UI和视觉内容的效果，为设计师提供即时反馈，帮助他们优化设计方案。此外，UniAR还可以用于训练内容生成模型，使其能够生成更符合人类偏好的内容。例如，可以用于优化网页设计、广告设计和图像生成等。

📄 摘要（原文）

Progress in human behavior modeling involves understanding both implicit, early-stage perceptual behavior, such as human attention, and explicit, later-stage behavior, such as subjective preferences or likes. Yet most prior research has focused on modeling implicit and explicit human behavior in isolation; and often limited to a specific type of visual content. We propose UniAR -- a unified model of human attention and preference behavior across diverse visual content. UniAR leverages a multimodal transformer to predict subjective feedback, such as satisfaction or aesthetic quality, along with the underlying human attention or interaction heatmaps and viewing order. We train UniAR on diverse public datasets spanning natural images, webpages, and graphic designs, and achieve SOTA performance on multiple benchmarks across various image domains and behavior modeling tasks. Potential applications include providing instant feedback on the effectiveness of UIs/visual content, and enabling designers and content-creation models to optimize their creation for human-centric improvements.

UniAR: A Unified model for predicting human Attention and Responses on visual content

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册