LMME3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs
作者: Woo Yi Yang, Jiarui Wang, Sijing Wu, Huiyu Duan, Yuxin Zhu, Liu Yang, Kang Fu, Guangtao Zhai, Xiongkuo Min
分类: cs.CV
发布日期: 2025-04-29 (更新: 2025-08-05)
💡 一句话要点
提出LMME3DHF,基于LMM评估AI生成3D人脸质量与真实性,并构建大规模基准Gen3DHF。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D人脸生成 质量评估 多模态模型 深度学习 人工智能 视觉问答 显著性预测
📋 核心要点
- 现有方法难以有效评估AI生成3D人脸的质量和真实性,缺乏客观的评价标准和大规模数据集。
- 提出LMME3DHF,利用大型多模态模型,综合评估3D人脸的质量、真实性,并进行失真分析。
- 实验表明,LMME3DHF在质量预测、显著性预测和失真识别方面均优于现有方法,与人类感知高度一致。
📝 摘要(中文)
生成式人工智能的快速发展使得创建3D人脸成为可能,并应用于媒体制作、虚拟现实、安全、医疗保健和游戏开发等领域。然而,评估这些AI生成3D人脸的质量和真实性仍然是一个重大挑战,因为人类感知的主观性和对人脸特征的固有感知敏感性。为此,我们对AI生成3D人脸的质量评估进行了一项全面的研究。我们首先介绍了Gen3DHF,这是一个大规模基准,包含2000个AI生成的3D人脸视频,以及在质量和真实性两个维度上收集的4000个平均意见得分(MOS),2000个失真感知显著性图和失真描述。基于Gen3DHF,我们提出了一种基于大型多模态模型(LMM)的度量标准LMME3DHF,用于评估3DHF,能够进行质量和真实性评分预测、失真感知视觉问答和失真感知显著性预测。实验结果表明,LMME3DHF取得了最先进的性能,在准确预测AI生成3D人脸的质量分数以及有效识别失真感知显著区域和失真类型方面,超越了现有方法,同时保持与人类感知判断的强大一致性。Gen3DHF数据库和LMME3DHF将在发表后发布。
🔬 方法详解
问题定义:当前AI生成的3D人脸质量评估缺乏客观标准和有效方法。主观评价耗时耗力,且容易受到个体差异影响。现有方法难以准确捕捉人脸的细微失真和不真实感,无法有效指导生成模型的改进。因此,需要一种能够自动、准确、全面评估3D人脸质量和真实性的方法。
核心思路:利用大型多模态模型(LMM)的强大能力,将3D人脸视频作为输入,综合分析其视觉特征和语义信息。通过学习人类对3D人脸质量和真实性的感知模式,建立一个能够自动预测质量分数、识别显著失真区域和描述失真类型的评估模型。
技术框架:LMME3DHF的核心是一个基于LMM的评估框架,它包含以下几个主要模块:1) 视频编码器:用于提取3D人脸视频的视觉特征。2) 文本编码器:用于编码与3D人脸相关的文本信息,例如失真描述。3) 多模态融合模块:将视觉特征和文本特征进行融合,形成统一的表示。4) 预测模块:基于融合后的表示,预测3D人脸的质量分数、真实性分数,并生成失真感知显著性图。5) 视觉问答模块:根据输入的关于失真的问题,给出相应的答案。
关键创新:该方法的主要创新在于:1) 首次将大型多模态模型应用于3D人脸质量评估领域。2) 提出了一个综合性的评估框架,能够同时预测质量分数、真实性分数、显著性图和失真类型。3) 构建了一个大规模的3D人脸质量评估基准Gen3DHF,为该领域的研究提供了数据支持。
关键设计:在具体实现上,视频编码器可以采用预训练的视频Transformer模型,文本编码器可以采用预训练的语言模型。多模态融合模块可以采用注意力机制或跨模态Transformer。预测模块可以采用回归模型或分类模型。损失函数可以包括质量分数预测的均方误差损失、真实性分数预测的交叉熵损失、显著性图预测的KL散度损失等。Gen3DHF数据集包含2000个AI生成的3D人脸视频,每个视频都标注了质量分数、真实性分数、失真感知显著性图和失真描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LMME3DHF在Gen3DHF数据集上取得了state-of-the-art的性能。在质量分数预测方面,LMME3DHF的预测结果与人类感知高度一致,显著优于现有方法。在失真感知显著性预测方面,LMME3DHF能够准确识别出人脸中的显著失真区域。在失真类型识别方面,LMME3DHF能够有效区分不同类型的失真。
🎯 应用场景
该研究成果可广泛应用于3D人脸生成模型的评估与改进,提升虚拟现实、游戏开发、数字媒体等领域的3D人脸质量。同时,该方法也可用于人脸识别系统的安全性评估,检测AI生成人脸带来的潜在风险,并为相关监管提供技术支持。此外,该技术还可应用于医疗健康领域,例如辅助医生进行面部重建手术的评估。
📄 摘要(原文)
The rapid advancement in generative artificial intelligence have enabled the creation of 3D human faces (HFs) for applications including media production, virtual reality, security, healthcare, and game development, etc. However, assessing the quality and realism of these AI-generated 3D human faces remains a significant challenge due to the subjective nature of human perception and innate perceptual sensitivity to facial features. To this end, we conduct a comprehensive study on the quality assessment of AI-generated 3D human faces. We first introduce Gen3DHF, a large-scale benchmark comprising 2,000 videos of AI-Generated 3D Human Faces along with 4,000 Mean Opinion Scores (MOS) collected across two dimensions, i.e., quality and authenticity, 2,000 distortion-aware saliency maps and distortion descriptions. Based on Gen3DHF, we propose LMME3DHF, a Large Multimodal Model (LMM)-based metric for Evaluating 3DHF capable of quality and authenticity score prediction, distortion-aware visual question answering, and distortion-aware saliency prediction. Experimental results show that LMME3DHF achieves state-of-the-art performance, surpassing existing methods in both accurately predicting quality scores for AI-generated 3D human faces and effectively identifying distortion-aware salient regions and distortion types, while maintaining strong alignment with human perceptual judgments. Both the Gen3DHF database and the LMME3DHF will be released upon the publication.