MA-Bench: Towards Fine-grained Micro-Action Understanding

📄 arXiv: 2603.26586v1 📥 PDF

作者: Kun Li, Jihao Gu, Fei Wang, Zhiliang Wu, Hehe Fan, Dan Guo

分类: cs.CV

发布日期: 2026-03-27

备注: Accepted by CVPR 2026


💡 一句话要点

提出MA-Bench基准测试,用于评估多模态大语言模型在细粒度微动作理解方面的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 微动作理解 多模态大语言模型 基准测试 情感分析 行为识别

📋 核心要点

  1. 现有方法缺乏针对微动作理解的专用基准,难以评估多模态大语言模型在此领域的潜力。
  2. 构建MA-Bench基准和MA-Bench-Train训练集,包含视频、问答对和微动作字幕,用于评估和提升模型性能。
  3. 实验表明,现有模型在捕捉运动粒度和身体部位动态方面存在挑战,而微调后的模型性能显著提升。

📝 摘要(中文)

随着多模态大语言模型(MLLMs)的快速发展,它们在微动作理解方面的潜力仍未被探索,而微动作理解在人类情感分析中起着至关重要的作用,这主要是由于缺乏专门的基准。为了解决这个问题,我们提出了MA-Bench,一个包含1000个视频的基准,以及一个三层评估架构,逐步检查微动作感知、关系理解和解释性推理。MA-Bench包含12000个结构化的问答对,能够系统地评估识别准确率和动作解释。23个代表性MLLM的结果表明,在捕捉运动粒度和细粒度的身体部位动态方面存在重大挑战。为了应对这些挑战,我们进一步构建了MA-Bench-Train,一个包含20.5K视频的大规模训练语料库,这些视频都用结构化的微动作字幕进行标注,用于微调MLLM。在MA-Bench-Train上微调的Qwen3-VL-8B的结果表明,在微动作推理和解释任务中,性能得到了明显的提高。我们的工作旨在为推进MLLM在理解微妙的微动作和人类相关行为方面奠定基础。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLMs)在细粒度微动作理解方面缺乏有效评估和训练的问题。现有方法缺乏专门的基准数据集,无法充分评估模型在感知、理解和推理微小动作方面的能力。这阻碍了MLLMs在人类情感分析等领域的应用。

核心思路:论文的核心思路是构建一个高质量的基准数据集(MA-Bench)和一个大规模训练语料库(MA-Bench-Train),用于系统地评估和提升MLLMs在微动作理解方面的能力。通过结构化的问答对和微动作字幕,促进模型学习细粒度的动作特征和关系。

技术框架:MA-Bench包含1000个视频,并采用三层评估架构:微动作感知、关系理解和解释性推理。MA-Bench-Train包含20.5K视频,并标注了结构化的微动作字幕。研究人员使用MA-Bench评估了23个代表性的MLLMs,并使用MA-Bench-Train对Qwen3-VL-8B进行了微调。

关键创新:该研究的关键创新在于构建了专门针对微动作理解的基准数据集和训练语料库。MA-Bench不仅包含视频数据,还设计了结构化的问答对,能够更全面地评估模型在不同层次上的理解能力。MA-Bench-Train提供了大规模的标注数据,用于提升模型的微动作理解能力。

关键设计:MA-Bench的三层评估架构旨在逐步考察模型的能力:首先是微动作的感知,然后是动作之间的关系理解,最后是基于动作的解释性推理。MA-Bench-Train中的微动作字幕采用了结构化的描述方式,能够更清晰地表达动作的细节和含义。Qwen3-VL-8B的微调采用了标准的监督学习方法,通过最小化预测结果与真实标签之间的差异来优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的多模态大语言模型在微动作理解方面存在显著挑战,尤其是在捕捉运动粒度和细粒度的身体部位动态方面。通过在MA-Bench-Train上微调Qwen3-VL-8B,模型在微动作推理和解释任务中的性能得到了明显的提高,证明了该基准和训练语料库的有效性。

🎯 应用场景

该研究成果可应用于人类情感分析、行为识别、人机交互等领域。通过提升多模态大语言模型对微动作的理解能力,可以更准确地识别人类的情绪状态,从而改善人机交互体验,并为心理健康评估提供更客观的依据。未来,该技术还可能应用于智能监控、医疗诊断等领域。

📄 摘要(原文)

With the rapid development of Multimodal Large Language Models (MLLMs), their potential in Micro-Action understanding, a vital role in human emotion analysis, remains unexplored due to the absence of specialized benchmarks. To tackle this issue, we present MA-Bench, a benchmark comprising 1,000 videos and a three-tier evaluation architecture that progressively examines micro-action perception, relational comprehension, and interpretive reasoning. MA-Bench contains 12,000 structured question-answer pairs, enabling systematic assessment of both recognition accuracy and action interpretation. The results of 23 representative MLLMs reveal that there are significant challenges in capturing motion granularity and fine-grained body-part dynamics. To address these challenges, we further construct MA-Bench-Train, a large-scale training corpus with 20.5K videos annotated with structured micro-action captions for fine-tuning MLLMs. The results of Qwen3-VL-8B fine-tuned on MA-Bench-Train show clear performance improvements across micro-action reasoning and explanation tasks. Our work aims to establish a foundation benchmark for advancing MLLMs in understanding subtle micro-action and human-related behaviors. Project Page: https://MA-Bench.github.io