KidsArtBench: Multi-Dimensional Children's Art Evaluation with Attribute-Aware MLLMs

📄 arXiv: 2512.12503v1 📥 PDF

作者: Mingrui Ye, Chanjin Zheng, Zengyi Yu, Chenyu Xiang, Zhixue Zhao, Zheng Yuan, Helen Yannakoudakis

分类: cs.AI

发布日期: 2025-12-14


💡 一句话要点

KidsArtBench:提出属性感知多模态大语言模型,用于儿童艺术作品的多维度评估。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 儿童艺术评估 多模态大语言模型 属性感知 多LoRA 回归感知微调 教育人工智能 视觉语言

📋 核心要点

  1. 现有的多模态大语言模型在艺术评估方面能力有限,缺乏针对儿童艺术作品的专业评估基准和方法。
  2. 论文提出了一种属性感知的多LoRA方法,针对儿童艺术作品的多个维度进行评估,并结合回归感知微调以提升性能。
  3. 实验表明,该方法在KidsArtBench基准上显著提高了评估相关性,尤其是在感知维度上,证明了其有效性。

📝 摘要(中文)

多模态大语言模型(MLLMs)在许多视觉-语言任务中表现出显著的进步;然而,它们评估艺术表达的能力仍然有限。 艺术概念本质上是抽象和开放的,而且多模态艺术作品的标注数据稀缺。 我们推出了KidsArtBench,这是一个新的基准,包含1000多幅儿童艺术作品(5-15岁),由12位专家教育工作者根据9个与评分标准一致的维度进行标注,并提供专家评论以进行反馈。 与之前提供成人图像单一标量分数的审美数据集不同,KidsArtBench针对儿童艺术作品,并将多维度标注与评论监督相结合,以实现顺序评估和形成性反馈。 在此基础上,我们提出了一种属性特定的多LoRA方法,其中每个属性对应于评分标准中的一个不同的评估维度(例如,现实主义、想象力),并采用回归感知微调(RAFT)来使预测与顺序尺度对齐。 在Qwen2.5-VL-7B上,我们的方法将相关性从0.468提高到0.653,在感知维度上增益最大,并在高阶属性上缩小了差距。 这些结果表明,与教育工作者对齐的监督和属性感知训练可以产生具有教学意义的评估,并为教育人工智能的持续进步建立一个严格的试验平台。 我们发布了包含伦理文档的数据和代码。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型在儿童艺术作品评估方面能力不足的问题。现有方法主要集中在成人图像的单一标量评分,缺乏针对儿童艺术作品多维度评估的基准和方法,无法提供细粒度的反馈和指导。

核心思路:论文的核心思路是利用专家教育工作者对儿童艺术作品进行多维度标注,构建一个高质量的评估基准(KidsArtBench)。然后,针对每个评估维度(如现实主义、想象力)训练一个LoRA模块,实现属性感知的评估。最后,采用回归感知微调(RAFT)来对齐预测结果与顺序尺度,提升评估的准确性。

技术框架:整体框架包括以下几个主要模块:1) 数据收集与标注:构建KidsArtBench数据集,由专家教育工作者对儿童艺术作品进行9个维度的标注,并提供评论反馈。2) 属性感知多LoRA:针对每个评估维度训练一个LoRA模块,实现属性特定的评估。3) 回归感知微调(RAFT):使用RAFT方法对LoRA模块进行微调,使预测结果与顺序尺度对齐。

关键创新:论文的关键创新在于:1) 构建了KidsArtBench数据集,为儿童艺术作品的评估提供了一个高质量的基准。2) 提出了属性感知的多LoRA方法,能够针对不同的评估维度进行细粒度的评估。3) 采用了回归感知微调(RAFT)方法,提升了评估的准确性。

关键设计:在属性感知多LoRA中,每个LoRA模块对应一个评估维度,例如现实主义、想象力等。回归感知微调(RAFT)使用回归损失函数,例如均方误差(MSE),来优化LoRA模块的参数,使预测结果与专家标注的顺序尺度对齐。具体参数设置和网络结构细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Qwen2.5-VL-7B模型上,该方法将评估相关性从0.468提高到0.653,尤其是在感知维度上获得了显著的提升。实验结果表明,该方法能够有效提高儿童艺术作品评估的准确性和细粒度,为教育人工智能的发展提供了有力的支持。

🎯 应用场景

该研究成果可应用于儿童艺术教育领域,为教师提供辅助评估工具,帮助学生获得更个性化的反馈和指导。此外,该方法也可推广到其他需要多维度评估的领域,例如创意设计、产品评估等,具有广泛的应用前景。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) show remarkable progress across many visual-language tasks; however, their capacity to evaluate artistic expression remains limited. Aesthetic concepts are inherently abstract and open-ended, and multimodal artwork annotations are scarce. We introduce KidsArtBench, a new benchmark of over 1k children's artworks (ages 5-15) annotated by 12 expert educators across 9 rubric-aligned dimensions, together with expert comments for feedback. Unlike prior aesthetic datasets that provide single scalar scores on adult imagery, KidsArtBench targets children's artwork and pairs multi-dimensional annotations with comment supervision to enable both ordinal assessment and formative feedback. Building on this resource, we propose an attribute-specific multi-LoRA approach, where each attribute corresponds to a distinct evaluation dimension (e.g., Realism, Imagination) in the scoring rubric, with Regression-Aware Fine-Tuning (RAFT) to align predictions with ordinal scales. On Qwen2.5-VL-7B, our method increases correlation from 0.468 to 0.653, with the largest gains on perceptual dimensions and narrowed gaps on higher-order attributes. These results show that educator-aligned supervision and attribute-aware training yield pedagogically meaningful evaluations and establish a rigorous testbed for sustained progress in educational AI. We release data and code with ethics documentation.