One Model, Two Minds: Task-Conditioned Reasoning for Unified Image Quality and Aesthetic Assessment

作者: Wen Yin, Cencen Liu, Dingrui Liu, Bing Su, Yuan-Fang Li, Tao He

分类: cs.CV

发布日期: 2026-03-20

备注: 10 pages,7 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出TATAR框架，通过任务条件推理统一图像质量与美学评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像质量评估 图像美学评估 多模态学习 任务条件推理 视觉语言模型

📋 核心要点

现有方法在统一图像质量和美学评估时，忽略了两者对推理和优化的不同需求，导致性能瓶颈。
TATAR框架通过任务感知的推理构建、两阶段学习和非对称奖励，针对性地优化IQA和IAA任务。
实验表明，TATAR在多个数据集上超越了现有统一模型，并与专用模型具有竞争力，同时提升了训练稳定性。

📝 摘要（中文）

本文旨在统一图像质量评估(IQA)和图像美学评估(IAA)到一个多模态大语言模型中。现有方法采用任务无关的方式，对两项任务采用相同的推理策略和奖励，这存在根本性错配：IQA依赖于低层次、客观的感知线索，需要简洁的、以失真为中心的推理；而IAA需要深思熟虑的语义判断，逐点回归评分效果不佳。作者将此分别定义为推理错配和优化错配，并通过受控探针提供了经验证据。基于此，作者提出了TATAR（Task-Aware Thinking with Asymmetric Rewards），一个统一的框架，共享视觉-语言骨干网络，并在后训练阶段根据每项任务的性质进行调节。TATAR结合了三个组件：快速-慢速任务特定推理构建，将IQA与简洁的感知原理配对，将IAA与深思熟虑的美学叙事配对；两阶段SFT+GRPO学习，在奖励驱动的细化之前建立任务感知的行为先验；以及非对称奖励，对IQA应用高斯分数整形，对IAA应用Thurstone风格的完成排名。在八个基准测试上的大量实验表明，TATAR在领域内和跨领域设置下，始终优于先前的统一基线，与任务特定的专业模型相比仍具有竞争力，并为美学评估产生更稳定的训练动态。结果表明，任务条件后训练是统一感知评分的一种有效范例。

🔬 方法详解

问题定义：现有方法在统一图像质量评估（IQA）和图像美学评估（IAA）时，采用任务无关的策略，即使用相同的推理方式和奖励机制来处理这两个任务。然而，IQA和IAA在本质上是不同的：IQA侧重于客观的、低层次的感知失真，而IAA则需要主观的、高层次的语义理解。这种任务无关的策略导致了推理错配和优化错配，限制了统一模型的性能。

核心思路：TATAR的核心思路是根据IQA和IAA的任务特性，采用任务感知的推理和优化策略。具体来说，针对IQA，采用简洁的、以失真为中心的推理方式和高斯分数整形奖励；针对IAA，采用深思熟虑的、基于语义的推理方式和Thurstone风格的完成排名奖励。通过这种任务条件的方式，TATAR能够更好地适应IQA和IAA的不同需求，从而提高统一模型的性能。

技术框架：TATAR框架主要包含三个模块：1) 快速-慢速任务特定推理构建：为IQA构建简洁的感知原理，为IAA构建深思熟虑的美学叙事。2) 两阶段SFT+GRPO学习：首先通过监督微调（SFT）建立任务感知的行为先验，然后通过奖励驱动的策略优化（GRPO）进行细化。3) 非对称奖励：对IQA应用高斯分数整形，对IAA应用Thurstone风格的完成排名。整个框架共享一个视觉-语言骨干网络，并通过任务条件的方式进行后训练。

关键创新：TATAR的关键创新在于任务感知的推理和优化策略。与现有方法不同，TATAR根据IQA和IAA的任务特性，采用不同的推理方式和奖励机制。这种任务条件的方式能够更好地适应IQA和IAA的不同需求，从而提高统一模型的性能。此外，TATAR还提出了两阶段SFT+GRPO学习，能够更有效地训练统一模型。

关键设计：在快速-慢速任务特定推理构建中，IQA使用简洁的、以失真为中心的提示词，而IAA使用更详细的、基于语义的提示词。在两阶段SFT+GRPO学习中，SFT阶段使用交叉熵损失函数，GRPO阶段使用任务特定的奖励函数。对于IQA，奖励函数基于高斯分数整形，对于IAA，奖励函数基于Thurstone风格的完成排名。具体参数设置和网络结构细节未在摘要中详细说明，需要参考论文全文。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TATAR在八个基准测试中，均优于现有的统一模型，并且在某些情况下，能够与任务特定的专业模型相媲美。此外，TATAR在美学评估任务中表现出更稳定的训练动态，表明其任务感知的优化策略能够有效提升训练效果。

🎯 应用场景

TATAR框架可应用于图像处理、计算机视觉和多媒体等领域，例如智能手机图像增强、图像质量监控、以及个性化图像推荐等。该研究有助于开发更智能、更高效的图像处理系统，提升用户体验，并为未来的多模态人工智能研究提供新的思路。

📄 摘要（原文）

Unifying Image Quality Assessment (IQA) and Image Aesthetic Assessment (IAA) in a single multimodal large language model is appealing, yet existing methods adopt a task-agnostic recipe that applies the same reasoning strategy and reward to both tasks. We show this is fundamentally misaligned: IQA relies on low-level, objective perceptual cues and benefits from concise distortion-focused reasoning, whereas IAA requires deliberative semantic judgment and is poorly served by point-wise score regression. We identify these as a reasoning mismatch and an optimization mismatch, and provide empirical evidence for both through controlled probes. Motivated by these findings, we propose TATAR (Task-Aware Thinking with Asymmetric Rewards), a unified framework that shares the visual-language backbone while conditioning post-training on each task's nature. TATAR combines three components: fast--slow task-specific reasoning construction that pairs IQA with concise perceptual rationales and IAA with deliberative aesthetic narratives; two-stage SFT+GRPO learning that establishes task-aware behavioral priors before reward-driven refinement; and asymmetric rewards that apply Gaussian score shaping for IQA and Thurstone-style completion ranking for IAA. Extensive experiments across eight benchmarks demonstrate that TATAR consistently outperforms prior unified baselines on both tasks under in-domain and cross-domain settings, remains competitive with task-specific specialized models, and yields more stable training dynamics for aesthetic assessment. Our results establish task-conditioned post-training as a principled paradigm for unified perceptual scoring. Our code is publicly available at https://github.com/yinwen2019/TATAR.

One Model, Two Minds: Task-Conditioned Reasoning for Unified Image Quality and Aesthetic Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理