Evaluating point-light biological motion in multimodal large language models

作者: Akila Kadambi, Marco Iacoboni, Lisa Aziz-Zadeh, Srini Narayanan

分类: cs.CV, cs.AI

发布日期: 2025-09-27

💡 一句话要点

ActPLD基准测试揭示多模态大语言模型在理解点光生物运动方面的不足

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 点光显示 动作理解 具身智能 基准测试

📋 核心要点

多模态大语言模型在动作理解方面存在不足，尤其是在处理仅依赖运动信息的点光显示时。
提出ActPLD基准，利用点光显示评估MLLM对动作的理解能力，聚焦于时空信息和动作语义。
实验结果表明，现有模型在ActPLD上的表现普遍较低，突显了模型在动作和时空理解方面的差距。

📝 摘要（中文）

人类能够从极简的视觉线索中提取丰富的语义信息，点光显示（PLD）就是一个很好的例子，它由稀疏的点集组成，这些点定位于人体关键关节。这种能力在早期发展中就已出现，并且很大程度上归因于人类的具身经验。由于PLD将身体运动作为意义的唯一来源，因此它们是测试这些系统中动作理解约束的关键刺激。本文提出了ActPLD，这是第一个评估MLLM从人类PLD中进行动作处理的基准。测试的模型包括最先进的专有和开源系统，涵盖单人动作和社交互动PLD。结果表明，这些模型的一致性表现都很低，揭示了在动作和时空理解方面的根本差距。

🔬 方法详解

问题定义：论文旨在评估多模态大语言模型（MLLM）理解人类动作的能力，特别是在仅提供点光显示（PLD）这种极简视觉信息的情况下。现有方法在处理PLD时表现不佳，无法有效提取动作的语义信息，这表明模型在时空推理和动作理解方面存在根本缺陷。

核心思路：论文的核心思路是利用PLD作为一种关键刺激，因为它仅包含身体运动信息，排除了其他视觉干扰。通过构建ActPLD基准，可以系统地评估MLLM在理解不同类型的动作（包括单人动作和社交互动）方面的能力，从而揭示模型在动作理解方面的局限性。

技术框架：ActPLD基准包含一系列人类动作的PLD视频，这些视频被输入到不同的MLLM中进行动作识别或描述。模型的输出与预定义的标签或描述进行比较，以评估模型的性能。测试流程包括数据预处理、模型推理和性能评估三个主要阶段。

关键创新：该研究的关键创新在于提出了ActPLD基准，这是第一个专门用于评估MLLM从PLD中理解人类动作的基准。与传统的动作识别数据集不同，ActPLD更加关注模型对运动信息的理解能力，而不是对外观信息的依赖。

关键设计：ActPLD基准包含单人动作和社交互动动作，涵盖了多种不同的动作类型。论文选择了多个最先进的专有和开源MLLM进行测试，并使用了标准的评估指标（如准确率和F1分数）来衡量模型的性能。具体参数设置和网络结构取决于所测试的MLLM。

📊 实验亮点

实验结果表明，包括GPT-4和Gemini在内的多个最先进的MLLM在ActPLD基准上的表现普遍较低，这表明这些模型在理解点光生物运动方面存在显著差距。即使是专门针对视频理解进行训练的模型，其性能也远低于人类水平，突显了模型在时空推理和动作语义理解方面的不足。

🎯 应用场景

该研究成果可应用于评估和改进多模态大语言模型在动作理解方面的能力，尤其是在机器人、虚拟现实和人机交互等领域。通过提高模型对运动信息的理解能力，可以使机器人更好地理解人类的意图，从而实现更自然和有效的交互。此外，该研究还可以促进对人类动作感知机制的深入理解。

📄 摘要（原文）

Humans can extract rich semantic information from minimal visual cues, as demonstrated by point-light displays (PLDs), which consist of sparse sets of dots localized to key joints of the human body. This ability emerges early in development and is largely attributed to human embodied experience. Since PLDs isolate body motion as the sole source of meaning, they represent key stimuli for testing the constraints of action understanding in these systems. Here we introduce ActPLD, the first benchmark to evaluate action processing in MLLMs from human PLDs. Tested models include state-of-the-art proprietary and open-source systems on single-actor and socially interacting PLDs. Our results reveal consistently low performance across models, introducing fundamental gaps in action and spatiotemporal understanding.

Evaluating point-light biological motion in multimodal large language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册