AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

作者: Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu

分类: cs.CV

发布日期: 2026-03-09

💡 一句话要点

AULLM++：利用大语言模型的结构化推理进行微表情识别

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 微表情识别 动作单元检测 大语言模型 结构化推理 图神经网络

📋 核心要点

现有微表情AU检测方法依赖低密度视觉信息，易受噪声干扰，且特征处理粒度粗糙，忽略了AU间的关联。
AULLM++利用大语言模型进行推理，将视觉特征融入文本提示，通过证据构建、结构建模和演绎预测三个阶段实现AU预测。
实验表明，AULLM++在标准数据集上取得了SOTA性能，并展现出优秀的跨域泛化能力，验证了该方法的有效性。

📝 摘要（中文）

微表情动作单元(AU)检测旨在从细微的面部肌肉活动中识别局部AU，为解码情感线索奠定基础。先前的方法面临三个主要限制：(1)严重依赖低密度视觉信息，使得判别性证据容易受到背景噪声的影响；(2)粗粒度的特征处理与细粒度表示的需求不符；(3)忽略AU之间的相关性，限制了解析复杂表情模式。我们提出了AULLM++，一个利用大语言模型(LLM)的推理框架，它将视觉特征注入到文本提示中作为可操作的语义前提来指导推理。它将AU预测分为三个阶段：证据构建、结构建模和基于演绎的预测。具体来说，多粒度证据增强融合投影器(MGE-EFP)将中层纹理线索与高层语义融合，并将它们提炼成一个紧凑的内容令牌(CT)。此外，受到微表情和宏表情AU对应关系的启发，我们将AU关系编码为稀疏结构先验，并通过关系感知AU图神经网络(R-AUGNN)学习交互强度，生成指令令牌(IT)。然后，我们将CT和IT融合到结构化文本提示中，并引入反事实一致性正则化(CCR)来构建反事实样本，从而增强模型的泛化能力。大量实验表明，AULLM++在标准基准上实现了最先进的性能，并表现出卓越的跨域泛化能力。

🔬 方法详解

问题定义：微表情动作单元(AU)检测旨在识别面部细微肌肉活动对应的AU，是情感识别的关键。现有方法的痛点在于：1)依赖低密度视觉信息，易受噪声干扰；2)特征处理粒度粗糙，无法满足细粒度表示的需求；3)忽略AU间的相关性，限制了复杂表情的解析能力。

核心思路：论文的核心思路是利用大语言模型(LLM)的推理能力，将视觉特征转化为文本提示，并结合AU间的结构化关系，引导LLM进行AU预测。通过这种方式，可以有效利用LLM的语义理解和推理能力，克服传统方法的局限性。

技术框架：AULLM++框架包含三个主要阶段：1)证据构建：使用多粒度证据增强融合投影器(MGE-EFP)融合中层纹理和高层语义，生成内容令牌(CT)；2)结构建模：利用关系感知AU图神经网络(R-AUGNN)学习AU间的关系，生成指令令牌(IT)；3)演绎预测：将CT和IT融合为结构化文本提示，输入LLM进行AU预测。同时，引入反事实一致性正则化(CCR)增强泛化能力。

关键创新：该方法最重要的创新点在于将微表情AU检测问题转化为一个基于LLM的结构化推理问题。通过将视觉特征和AU关系编码为文本提示，充分利用了LLM的语义理解和推理能力，从而提高了AU检测的准确性和鲁棒性。与现有方法相比，AULLM++不再仅仅依赖低层次的视觉特征，而是能够进行更高层次的语义推理。

关键设计：MGE-EFP的设计融合了不同粒度的视觉特征，R-AUGNN利用稀疏结构先验编码AU关系，CCR通过构建反事实样本增强模型的泛化能力。这些设计细节共同保证了AULLM++的有效性。具体参数设置和网络结构细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

AULLM++在标准微表情数据集上取得了state-of-the-art的性能，证明了其有效性。同时，该方法在跨域泛化能力方面也表现出色，表明其具有较强的鲁棒性和实用性。具体的性能数据和对比基线未在摘要中给出，属于未知信息。

🎯 应用场景

AULLM++在微表情识别领域具有广泛的应用前景，可用于心理学研究、人机交互、安全监控、医疗诊断等领域。通过准确识别微表情，可以更好地理解人类的情感状态，从而改善人际沟通、提高工作效率、预防犯罪行为等。未来，该技术有望应用于更广泛的情感计算领域。

📄 摘要（原文）

Micro-expression Action Unit (AU) detection identifies localized AUs from subtle facial muscle activations, providing a foundation for decoding affective cues. Previous methods face three key limitations: (1) heavy reliance on low-density visual information, rendering discriminative evidence vulnerable to background noise; (2) coarse-grained feature processing that misaligns with the demand for fine-grained representations; and (3) neglect of inter-AU correlations, restricting the parsing of complex expression patterns. We propose AULLM++, a reasoning-oriented framework leveraging Large Language Models (LLMs), which injects visual features into textual prompts as actionable semantic premises to guide inference. It formulates AU prediction into three stages: evidence construction, structure modeling, and deduction-based prediction. Specifically, a Multi-Granularity Evidence-Enhanced Fusion Projector (MGE-EFP) fuses mid-level texture cues with high-level semantics, distilling them into a compact Content Token (CT). Furthermore, inspired by micro- and macro-expression AU correspondence, we encode AU relationships as a sparse structural prior and learn interaction strengths via a Relation-Aware AU Graph Neural Network (R-AUGNN), producing an Instruction Token (IT). We then fuse CT and IT into a structured textual prompt and introduce Counterfactual Consistency Regularization (CCR) to construct counterfactual samples, enhancing the model's generalization. Extensive experiments demonstrate AULLM++ achieves state-of-the-art performance on standard benchmarks and exhibits superior cross-domain generalization.

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理