One Model, Two Minds: Task-Conditioned Reasoning for Unified Image Quality and Aesthetic Assessment
作者: Wen Yin, Cencen Liu, Dingrui Liu, Bing Su, Yuan-Fang Li, Tao He
分类: cs.CV
发布日期: 2026-03-20
备注: 10 pages,7 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出TATAR框架,通过任务条件推理统一图像质量与美学评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像质量评估 图像美学评估 多模态学习 任务条件推理 视觉语言模型
📋 核心要点
- 现有方法在统一图像质量和美学评估时,忽略了两者对推理和优化的不同需求,导致性能瓶颈。
- TATAR框架通过任务感知的推理构建、两阶段学习和非对称奖励,针对性地优化IQA和IAA任务。
- 实验表明,TATAR在多个数据集上超越了现有统一模型,并与专用模型具有竞争力,同时提升了训练稳定性。
📝 摘要(中文)
本文旨在统一图像质量评估(IQA)和图像美学评估(IAA)到一个多模态大语言模型中。现有方法采用任务无关的方式,对两项任务采用相同的推理策略和奖励,这存在根本性错配:IQA依赖于低层次、客观的感知线索,需要简洁的、以失真为中心的推理;而IAA需要深思熟虑的语义判断,逐点回归评分效果不佳。作者将此分别定义为推理错配和优化错配,并通过受控探针提供了经验证据。基于此,作者提出了TATAR(Task-Aware Thinking with Asymmetric Rewards),一个统一的框架,共享视觉-语言骨干网络,并在后训练阶段根据每项任务的性质进行调节。TATAR结合了三个组件:快速-慢速任务特定推理构建,将IQA与简洁的感知原理配对,将IAA与深思熟虑的美学叙事配对;两阶段SFT+GRPO学习,在奖励驱动的细化之前建立任务感知的行为先验;以及非对称奖励,对IQA应用高斯分数整形,对IAA应用Thurstone风格的完成排名。在八个基准测试上的大量实验表明,TATAR在领域内和跨领域设置下,始终优于先前的统一基线,与任务特定的专业模型相比仍具有竞争力,并为美学评估产生更稳定的训练动态。结果表明,任务条件后训练是统一感知评分的一种有效范例。
🔬 方法详解
问题定义:现有方法在统一图像质量评估(IQA)和图像美学评估(IAA)时,采用任务无关的策略,即使用相同的推理方式和奖励机制来处理这两个任务。然而,IQA和IAA在本质上是不同的:IQA侧重于客观的、低层次的感知失真,而IAA则需要主观的、高层次的语义理解。这种任务无关的策略导致了推理错配和优化错配,限制了统一模型的性能。
核心思路:TATAR的核心思路是根据IQA和IAA的任务特性,采用任务感知的推理和优化策略。具体来说,针对IQA,采用简洁的、以失真为中心的推理方式和高斯分数整形奖励;针对IAA,采用深思熟虑的、基于语义的推理方式和Thurstone风格的完成排名奖励。通过这种任务条件的方式,TATAR能够更好地适应IQA和IAA的不同需求,从而提高统一模型的性能。
技术框架:TATAR框架主要包含三个模块:1) 快速-慢速任务特定推理构建:为IQA构建简洁的感知原理,为IAA构建深思熟虑的美学叙事。2) 两阶段SFT+GRPO学习:首先通过监督微调(SFT)建立任务感知的行为先验,然后通过奖励驱动的策略优化(GRPO)进行细化。3) 非对称奖励:对IQA应用高斯分数整形,对IAA应用Thurstone风格的完成排名。整个框架共享一个视觉-语言骨干网络,并通过任务条件的方式进行后训练。
关键创新:TATAR的关键创新在于任务感知的推理和优化策略。与现有方法不同,TATAR根据IQA和IAA的任务特性,采用不同的推理方式和奖励机制。这种任务条件的方式能够更好地适应IQA和IAA的不同需求,从而提高统一模型的性能。此外,TATAR还提出了两阶段SFT+GRPO学习,能够更有效地训练统一模型。
关键设计:在快速-慢速任务特定推理构建中,IQA使用简洁的、以失真为中心的提示词,而IAA使用更详细的、基于语义的提示词。在两阶段SFT+GRPO学习中,SFT阶段使用交叉熵损失函数,GRPO阶段使用任务特定的奖励函数。对于IQA,奖励函数基于高斯分数整形,对于IAA,奖励函数基于Thurstone风格的完成排名。具体参数设置和网络结构细节未在摘要中详细说明,需要参考论文全文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TATAR在八个基准测试中,均优于现有的统一模型,并且在某些情况下,能够与任务特定的专业模型相媲美。此外,TATAR在美学评估任务中表现出更稳定的训练动态,表明其任务感知的优化策略能够有效提升训练效果。
🎯 应用场景
TATAR框架可应用于图像处理、计算机视觉和多媒体等领域,例如智能手机图像增强、图像质量监控、以及个性化图像推荐等。该研究有助于开发更智能、更高效的图像处理系统,提升用户体验,并为未来的多模态人工智能研究提供新的思路。
📄 摘要(原文)
Unifying Image Quality Assessment (IQA) and Image Aesthetic Assessment (IAA) in a single multimodal large language model is appealing, yet existing methods adopt a task-agnostic recipe that applies the same reasoning strategy and reward to both tasks. We show this is fundamentally misaligned: IQA relies on low-level, objective perceptual cues and benefits from concise distortion-focused reasoning, whereas IAA requires deliberative semantic judgment and is poorly served by point-wise score regression. We identify these as a reasoning mismatch and an optimization mismatch, and provide empirical evidence for both through controlled probes. Motivated by these findings, we propose TATAR (Task-Aware Thinking with Asymmetric Rewards), a unified framework that shares the visual-language backbone while conditioning post-training on each task's nature. TATAR combines three components: fast--slow task-specific reasoning construction that pairs IQA with concise perceptual rationales and IAA with deliberative aesthetic narratives; two-stage SFT+GRPO learning that establishes task-aware behavioral priors before reward-driven refinement; and asymmetric rewards that apply Gaussian score shaping for IQA and Thurstone-style completion ranking for IAA. Extensive experiments across eight benchmarks demonstrate that TATAR consistently outperforms prior unified baselines on both tasks under in-domain and cross-domain settings, remains competitive with task-specific specialized models, and yields more stable training dynamics for aesthetic assessment. Our results establish task-conditioned post-training as a principled paradigm for unified perceptual scoring. Our code is publicly available at https://github.com/yinwen2019/TATAR.