Scale-interaction transformer: a hybrid cnn-transformer model for facial beauty prediction

📄 arXiv: 2509.05078v1 📥 PDF

作者: Djamel Eddine Boukhari

分类: cs.CV

发布日期: 2025-09-05


💡 一句话要点

提出Scale-Interaction Transformer (SIT)模型,用于提升面部美学预测的准确性。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 面部美学预测 卷积神经网络 Transformer 多尺度特征 自注意力机制

📋 核心要点

  1. 现有CNN方法在面部美学预测中,难以有效捕捉不同尺度面部特征之间的复杂关联。
  2. SIT模型结合CNN的多尺度特征提取能力和Transformer的关系建模能力,显式建模特征间的交互。
  3. 在SCUT-FBP5500数据集上,SIT模型取得了0.9187的Pearson相关性,达到新的state-of-the-art。

📝 摘要(中文)

面部美学预测(FBP)是一项具有挑战性的计算机视觉任务,因为它受到影响人类感知的局部和全局面部特征复杂相互作用的影响。卷积神经网络(CNN)擅长特征提取,但通常以固定尺度处理信息,可能忽略了不同粒度级别特征之间的关键相互依赖关系。为了解决这个限制,我们引入了Scale-Interaction Transformer (SIT),这是一种新型混合深度学习架构,它将CNN的特征提取能力与Transformer的关系建模能力结合起来。SIT首先采用具有并行卷积的多尺度模块,以捕获不同感受野的面部特征。然后,这些多尺度表示被构建为一个序列,并由Transformer编码器处理,该编码器通过自注意力机制显式地建模它们的交互和上下文关系。我们在广泛使用的SCUT-FBP5500基准数据集上进行了大量实验,提出的SIT模型建立了一个新的state-of-the-art,实现了0.9187的Pearson相关性,优于以前的方法。我们的研究结果表明,显式地建模多尺度视觉线索之间的相互作用对于高性能FBP至关重要。SIT架构的成功突出了混合CNN-Transformer模型在需要整体的、上下文感知的复杂图像回归任务中的潜力。

🔬 方法详解

问题定义:面部美学预测旨在自动评估人脸的美观程度。现有方法,特别是基于CNN的方法,虽然擅长提取特征,但通常以固定尺度处理信息,难以捕捉不同尺度面部特征之间的复杂关联,例如眼睛与嘴巴的相对位置关系等。这种局限性导致预测精度受限。

核心思路:论文的核心思路是利用CNN提取多尺度特征,然后使用Transformer建模这些特征之间的关系。通过多尺度卷积提取不同感受野的特征,再将这些特征视为序列,利用Transformer的自注意力机制显式地学习它们之间的依赖关系。这样既能保留CNN的局部特征提取能力,又能利用Transformer的全局关系建模能力。

技术框架:SIT模型的整体架构包含两个主要模块:多尺度特征提取模块和Transformer编码器模块。首先,多尺度特征提取模块使用并行的卷积层,以不同的感受野提取面部特征。然后,这些多尺度特征被展平并连接成一个序列,输入到Transformer编码器中。Transformer编码器通过自注意力机制学习序列中不同特征之间的关系,最终输出预测的美学评分。

关键创新:SIT模型最关键的创新在于将CNN和Transformer结合,用于面部美学预测。与传统方法相比,SIT能够同时捕捉局部特征和全局关系,从而更全面地理解面部美学。此外,多尺度特征提取模块的设计也使得模型能够适应不同尺度的面部特征。

关键设计:多尺度特征提取模块使用了多个并行的卷积层,每个卷积层具有不同的卷积核大小,以提取不同尺度的特征。Transformer编码器使用了标准的Transformer结构,包括多头自注意力机制和前馈神经网络。损失函数使用了均方误差损失函数,用于衡量预测评分与真实评分之间的差异。训练过程中使用了Adam优化器,并设置了合适的学习率和batch size。

📊 实验亮点

SIT模型在SCUT-FBP5500数据集上取得了显著的性能提升,Pearson相关性达到0.9187,超越了之前所有方法。这一结果表明,显式建模多尺度视觉线索之间的相互作用对于高性能面部美学预测至关重要。SIT模型的成功验证了混合CNN-Transformer架构在复杂图像回归任务中的潜力。

🎯 应用场景

该研究成果可应用于多个领域,如个性化美妆推荐、虚拟整形、人脸识别系统优化等。通过自动评估面部美学,可以为用户提供更精准的美学建议,提升用户体验。此外,该技术还可用于辅助医学美容,例如评估整形手术的效果。

📄 摘要(原文)

Automated Facial Beauty Prediction (FBP) is a challenging computer vision task due to the complex interplay of local and global facial features that influence human perception. While Convolutional Neural Networks (CNNs) excel at feature extraction, they often process information at a fixed scale, potentially overlooking the critical inter-dependencies between features at different levels of granularity. To address this limitation, we introduce the Scale-Interaction Transformer (SIT), a novel hybrid deep learning architecture that synergizes the feature extraction power of CNNs with the relational modeling capabilities of Transformers. The SIT first employs a multi-scale module with parallel convolutions to capture facial characteristics at varying receptive fields. These multi-scale representations are then framed as a sequence and processed by a Transformer encoder, which explicitly models their interactions and contextual relationships via a self-attention mechanism. We conduct extensive experiments on the widely-used SCUT-FBP5500 benchmark dataset, where the proposed SIT model establishes a new state-of-the-art. It achieves a Pearson Correlation of 0.9187, outperforming previous methods. Our findings demonstrate that explicitly modeling the interplay between multi-scale visual cues is crucial for high-performance FBP. The success of the SIT architecture highlights the potential of hybrid CNN-Transformer models for complex image regression tasks that demand a holistic, context-aware understanding.