Evaluating point-light biological motion in multimodal large language models

📄 arXiv: 2509.23517v1 📥 PDF

作者: Akila Kadambi, Marco Iacoboni, Lisa Aziz-Zadeh, Srini Narayanan

分类: cs.CV, cs.AI

发布日期: 2025-09-27


💡 一句话要点

ActPLD基准测试揭示多模态大语言模型在理解点光生物运动方面的不足

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 点光显示 生物运动 多模态大语言模型 动作理解 时空推理

📋 核心要点

  1. 多模态大语言模型在动作理解方面存在不足,尤其是在处理仅依赖运动信息的点光显示时。
  2. 论文提出ActPLD基准,旨在通过点光动作刺激评估MLLM在动作和时空理解方面的能力。
  3. 实验结果表明,现有先进MLLM在ActPLD上的表现普遍较低,揭示了其在动作理解方面的局限性。

📝 摘要(中文)

人类能够从极简的视觉线索中提取丰富的语义信息,点光显示(PLD)就是一个很好的例子,它由稀疏的点集组成,这些点定位于人体的关键关节。这种能力在早期发展中就已出现,并且很大程度上归因于人类的具身经验。由于PLD将身体运动作为意义的唯一来源,因此它们是测试这些系统中动作理解约束的关键刺激。本文提出了ActPLD,这是第一个评估MLLM从人类PLD中进行动作处理的基准。测试的模型包括最先进的专有和开源系统,涵盖单人动作和社交互动PLD。结果表明,这些模型的一致性表现不佳,揭示了在动作和时空理解方面的根本差距。

🔬 方法详解

问题定义:论文旨在评估多模态大语言模型(MLLM)理解人类动作的能力,特别是在仅提供点光显示(PLD)这种极简视觉信息的情况下。现有方法在处理这种抽象的运动信息时表现不佳,无法有效提取动作的语义信息。这暴露了MLLM在动作理解和时空推理方面的局限性。

核心思路:论文的核心思路是利用PLD作为关键刺激,因为PLD仅保留了人体运动信息,排除了其他视觉干扰。通过构建ActPLD基准,可以系统地评估MLLM在理解不同类型的动作(包括单人动作和社交互动)方面的能力。这种方法能够更清晰地揭示模型在动作理解方面的真实水平。

技术框架:ActPLD基准包含一系列人类动作的PLD视频,并设计了相应的评估指标。研究人员选取了多个最先进的MLLM,包括专有模型和开源模型,在ActPLD上进行测试。测试过程包括将PLD视频输入MLLM,然后评估模型对动作的识别、分类和描述能力。通过分析模型的输出结果,可以深入了解其在动作理解方面的优势和不足。

关键创新:该论文的关键创新在于提出了ActPLD基准,这是首个专门用于评估MLLM从人类PLD中进行动作处理的基准。与以往的动作理解基准不同,ActPLD更加关注模型对纯粹运动信息的理解能力,从而能够更准确地评估模型在动作和时空推理方面的能力。

关键设计:ActPLD基准的设计考虑了多种因素,包括动作的多样性、社交互动的复杂性以及评估指标的合理性。基准包含单人动作和社交互动两种类型的PLD视频,涵盖了常见的日常动作和复杂的社交行为。评估指标包括动作识别准确率、动作分类准确率以及动作描述的质量。这些设计旨在全面评估MLLM在动作理解方面的能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最先进的MLLM在ActPLD上的表现也普遍较低,这表明这些模型在理解点光生物运动方面存在显著差距。例如,在动作识别任务中,模型的平均准确率远低于人类水平,这突显了当前MLLM在动作和时空理解方面的局限性。

🎯 应用场景

该研究成果可应用于机器人、虚拟现实、人机交互等领域。通过提升AI系统对人类动作的理解能力,可以实现更自然、更智能的人机交互,例如,机器人可以更好地理解人类的意图并做出相应的反应,虚拟现实系统可以更真实地模拟人类的行为。

📄 摘要(原文)

Humans can extract rich semantic information from minimal visual cues, as demonstrated by point-light displays (PLDs), which consist of sparse sets of dots localized to key joints of the human body. This ability emerges early in development and is largely attributed to human embodied experience. Since PLDs isolate body motion as the sole source of meaning, they represent key stimuli for testing the constraints of action understanding in these systems. Here we introduce ActPLD, the first benchmark to evaluate action processing in MLLMs from human PLDs. Tested models include state-of-the-art proprietary and open-source systems on single-actor and socially interacting PLDs. Our results reveal consistently low performance across models, introducing fundamental gaps in action and spatiotemporal understanding.