AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition
作者: Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu
分类: cs.CV
发布日期: 2026-03-09
💡 一句话要点
AULLM++:利用大语言模型的结构化推理进行微表情识别
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 微表情识别 动作单元检测 大语言模型 结构化推理 图神经网络
📋 核心要点
- 现有微表情AU检测方法依赖低密度视觉信息,易受噪声干扰,且特征处理粒度粗糙,忽略了AU间的关联。
- AULLM++利用大语言模型进行推理,将视觉特征融入文本提示,通过证据构建、结构建模和演绎预测三个阶段实现AU预测。
- 实验表明,AULLM++在标准数据集上取得了SOTA性能,并展现出优秀的跨域泛化能力,验证了该方法的有效性。
📝 摘要(中文)
微表情动作单元(AU)检测旨在从细微的面部肌肉活动中识别局部AU,为解码情感线索奠定基础。先前的方法面临三个主要限制:(1)严重依赖低密度视觉信息,使得判别性证据容易受到背景噪声的影响;(2)粗粒度的特征处理与细粒度表示的需求不符;(3)忽略AU之间的相关性,限制了解析复杂表情模式。我们提出了AULLM++,一个利用大语言模型(LLM)的推理框架,它将视觉特征注入到文本提示中作为可操作的语义前提来指导推理。它将AU预测分为三个阶段:证据构建、结构建模和基于演绎的预测。具体来说,多粒度证据增强融合投影器(MGE-EFP)将中层纹理线索与高层语义融合,并将它们提炼成一个紧凑的内容令牌(CT)。此外,受到微表情和宏表情AU对应关系的启发,我们将AU关系编码为稀疏结构先验,并通过关系感知AU图神经网络(R-AUGNN)学习交互强度,生成指令令牌(IT)。然后,我们将CT和IT融合到结构化文本提示中,并引入反事实一致性正则化(CCR)来构建反事实样本,从而增强模型的泛化能力。大量实验表明,AULLM++在标准基准上实现了最先进的性能,并表现出卓越的跨域泛化能力。
🔬 方法详解
问题定义:微表情动作单元(AU)检测旨在识别面部细微肌肉活动对应的AU,是情感识别的关键。现有方法的痛点在于:1)依赖低密度视觉信息,易受噪声干扰;2)特征处理粒度粗糙,无法满足细粒度表示的需求;3)忽略AU间的相关性,限制了复杂表情的解析能力。
核心思路:论文的核心思路是利用大语言模型(LLM)的推理能力,将视觉特征转化为文本提示,并结合AU间的结构化关系,引导LLM进行AU预测。通过这种方式,可以有效利用LLM的语义理解和推理能力,克服传统方法的局限性。
技术框架:AULLM++框架包含三个主要阶段:1)证据构建:使用多粒度证据增强融合投影器(MGE-EFP)融合中层纹理和高层语义,生成内容令牌(CT);2)结构建模:利用关系感知AU图神经网络(R-AUGNN)学习AU间的关系,生成指令令牌(IT);3)演绎预测:将CT和IT融合为结构化文本提示,输入LLM进行AU预测。同时,引入反事实一致性正则化(CCR)增强泛化能力。
关键创新:该方法最重要的创新点在于将微表情AU检测问题转化为一个基于LLM的结构化推理问题。通过将视觉特征和AU关系编码为文本提示,充分利用了LLM的语义理解和推理能力,从而提高了AU检测的准确性和鲁棒性。与现有方法相比,AULLM++不再仅仅依赖低层次的视觉特征,而是能够进行更高层次的语义推理。
关键设计:MGE-EFP的设计融合了不同粒度的视觉特征,R-AUGNN利用稀疏结构先验编码AU关系,CCR通过构建反事实样本增强模型的泛化能力。这些设计细节共同保证了AULLM++的有效性。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
AULLM++在标准微表情数据集上取得了state-of-the-art的性能,证明了其有效性。同时,该方法在跨域泛化能力方面也表现出色,表明其具有较强的鲁棒性和实用性。具体的性能数据和对比基线未在摘要中给出,属于未知信息。
🎯 应用场景
AULLM++在微表情识别领域具有广泛的应用前景,可用于心理学研究、人机交互、安全监控、医疗诊断等领域。通过准确识别微表情,可以更好地理解人类的情感状态,从而改善人际沟通、提高工作效率、预防犯罪行为等。未来,该技术有望应用于更广泛的情感计算领域。
📄 摘要(原文)
Micro-expression Action Unit (AU) detection identifies localized AUs from subtle facial muscle activations, providing a foundation for decoding affective cues. Previous methods face three key limitations: (1) heavy reliance on low-density visual information, rendering discriminative evidence vulnerable to background noise; (2) coarse-grained feature processing that misaligns with the demand for fine-grained representations; and (3) neglect of inter-AU correlations, restricting the parsing of complex expression patterns. We propose AULLM++, a reasoning-oriented framework leveraging Large Language Models (LLMs), which injects visual features into textual prompts as actionable semantic premises to guide inference. It formulates AU prediction into three stages: evidence construction, structure modeling, and deduction-based prediction. Specifically, a Multi-Granularity Evidence-Enhanced Fusion Projector (MGE-EFP) fuses mid-level texture cues with high-level semantics, distilling them into a compact Content Token (CT). Furthermore, inspired by micro- and macro-expression AU correspondence, we encode AU relationships as a sparse structural prior and learn interaction strengths via a Relation-Aware AU Graph Neural Network (R-AUGNN), producing an Instruction Token (IT). We then fuse CT and IT into a structured textual prompt and introduce Counterfactual Consistency Regularization (CCR) to construct counterfactual samples, enhancing the model's generalization. Extensive experiments demonstrate AULLM++ achieves state-of-the-art performance on standard benchmarks and exhibits superior cross-domain generalization.