VLAgeBench: Benchmarking Large Vision-Language Models for Zero-Shot Human Age Estimation

作者: Rakib Hossain Sajib, Md Kishor Morol, Rajan Das Gupta, Mohammad Sakib Mahmood, Shuvra Smaran Das

分类: cs.CV, cs.AI

发布日期: 2026-03-27

💡 一句话要点

VLAgeBench：评估大型视觉语言模型在零样本人脸年龄估计中的性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人脸年龄估计 大型视觉语言模型 零样本学习 生物特征识别 多模态学习

📋 核心要点

传统人脸年龄估计依赖大量标注数据和领域特定训练，成本高昂且泛化性受限，难以适应真实场景。
本文探索了大型视觉语言模型（LVLMs）在零样本人脸年龄估计中的潜力，无需微调即可实现有效预测。
实验表明，LVLMs在UTKFace和FG-NET数据集上表现出竞争力的性能，验证了其在生物特征年龄估计方面的能力。

📝 摘要（中文）

本文提出了一项针对大型视觉语言模型（LVLMs）在人脸年龄估计任务上的零样本评估研究。人脸年龄估计是一项具有挑战性的计算机视觉任务，在生物识别、医疗保健和人机交互等领域具有重要应用。传统的深度学习方法需要大量的标注数据集和领域特定的训练，而LVLMs为零样本年龄估计提供了潜力。本文评估了GPT-4o、Claude 3.5 Sonnet和LLaMA 3.2 Vision在UTKFace和FG-NET两个基准数据集上的性能，无需任何微调或任务特定的调整。使用MAE、MSE、RMSE等八个评估指标，证明了通用LVLMs可以在零样本设置中提供有竞争力的性能。研究结果强调了LVLMs在准确的生物特征年龄估计方面的涌现能力，并将其定位为有前景的工具。此外，还强调了与图像质量和人口子群体相关的性能差异，强调了公平感知多模态推理的必要性。这项工作引入了一个可复现的基准，并将LVLMs定位为法医学、医疗保健监测和人机交互等领域有前景的工具。该基准侧重于严格的零样本推理，没有微调，并强调了与提示敏感性、可解释性、计算成本和人口公平性相关的剩余挑战。

🔬 方法详解

问题定义：论文旨在解决人脸图像年龄估计问题，现有方法依赖于大量标注数据和领域特定训练，泛化能力有限，难以适应真实场景。因此，如何在零样本条件下，利用预训练的LVLMs进行有效的人脸年龄估计是一个关键问题。

核心思路：论文的核心思路是利用LVLMs强大的视觉和语言理解能力，将人脸年龄估计问题转化为一个视觉问答或描述生成任务。通过精心设计的提示（prompts），引导LVLMs理解图像内容并预测年龄，而无需任何针对特定数据集的微调。

技术框架：整体框架包括以下几个步骤：1）输入人脸图像；2）将图像输入到LVLM模型（如GPT-4o, Claude 3.5 Sonnet, LLaMA 3.2 Vision）；3）使用预定义的提示（prompts）引导模型进行年龄估计；4）模型输出预测的年龄；5）使用多个评估指标（MAE, MSE, RMSE等）评估预测结果。

关键创新：该研究的关键创新在于探索了LVLMs在零样本人脸年龄估计中的潜力，并提供了一个可复现的基准测试。与传统方法相比，该方法无需任何微调，即可实现具有竞争力的性能。此外，该研究还关注了模型在不同人口子群体上的表现，强调了公平性问题。

关键设计：论文的关键设计包括：1）选择合适的LVLM模型；2）设计有效的提示（prompts），例如“What is the age of the person in the image?”；3）使用多个评估指标全面评估模型性能；4）分析模型在不同图像质量和人口子群体上的表现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使在零样本设置下，LVLMs也能在UTKFace和FG-NET数据集上取得具有竞争力的性能。例如，GPT-4o在某些指标上甚至超过了传统的监督学习方法。此外，研究还发现，模型在不同图像质量和人口子群体上的表现存在差异，这为未来的研究提供了方向。

🎯 应用场景

该研究成果可应用于法医学、医疗健康监测、人机交互等领域。例如，在法医学中，可辅助进行身份识别和年龄推断；在医疗健康监测中，可用于评估患者的生理年龄和健康状况；在人机交互中，可用于个性化推荐和用户画像分析。未来，该技术有望在更多领域发挥重要作用。

📄 摘要（原文）

Human age estimation from facial images represents a challenging computer vision task with significant applications in biometrics, healthcare, and human-computer interaction. While traditional deep learning approaches require extensive labeled datasets and domain-specific training, recent advances in large vision-language models (LVLMs) offer the potential for zero-shot age estimation. This study presents a comprehensive zero-shot evaluation of state-of-the-art Large Vision-Language Models (LVLMs) for facial age estimation, a task traditionally dominated by domain-specific convolutional networks and supervised learning. We assess the performance of GPT-4o, Claude 3.5 Sonnet, and LLaMA 3.2 Vision on two benchmark datasets, UTKFace and FG-NET, without any fine-tuning or task-specific adaptation. Using eight evaluation metrics, including MAE, MSE, RMSE, MAPE, MBE, $R^2$, CCC, and $\pm$5-year accuracy, we demonstrate that general-purpose LVLMs can deliver competitive performance in zero-shot settings. Our findings highlight the emergent capabilities of LVLMs for accurate biometric age estimation and position these models as promising tools for real-world applications. Additionally, we highlight performance disparities linked to image quality and demographic subgroups, underscoring the need for fairness-aware multimodal inference. This work introduces a reproducible benchmark and positions LVLMs as promising tools for real-world applications in forensic science, healthcare monitoring, and human-computer interaction. The benchmark focuses on strict zero-shot inference without fine-tuning and highlights remaining challenges related to prompt sensitivity, interpretability, computational cost, and demographic fairness.

VLAgeBench: Benchmarking Large Vision-Language Models for Zero-Shot Human Age Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理