GPT-4o: Visual perception performance of multimodal large language models in piglet activity understanding

📄 arXiv: 2406.09781v1 📥 PDF

作者: Yiqi Wu, Xiaodan Hu, Ziming Fu, Siling Zhou, Jiangong Li

分类: cs.CV

发布日期: 2024-06-14


💡 一句话要点

评估多模态大语言模型在猪仔行为理解中的视觉感知能力,GPT-4o表现突出

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 动物行为理解 视觉感知 猪仔行为识别 智能畜牧业

📋 核心要点

  1. 动物行为标注是动物研究的基础,但传统方法复杂、主观且需要处理多模态数据。
  2. 本研究利用多模态大语言模型(LLM)的视觉感知能力,探索其在猪仔行为理解中的应用潜力。
  3. 实验结果表明,现有LLM在语义对应和时间感知方面有待提高,但GPT-4o表现出优秀的视觉感知能力。

📝 摘要(中文)

动物行为学是动物研究的关键,而动物行为标注是研究的基础。该过程通常涉及用行为语义标签标注视频片段,这是一项复杂、主观且多模态的任务。随着多模态大语言模型(LLM)的快速发展,畜牧场景下的动物行为理解任务涌现了新的应用。本研究评估了多模态LLM在动物活动识别中的视觉感知能力。为此,我们创建了包含单个猪仔特写视频片段和完整视频片段的猪仔测试数据,并进行了标注。这些数据用于评估四种多模态LLM——Video-LLaMA、MiniGPT4-Video、Video-Chat2和GPT-4o——在猪仔活动理解方面的性能。通过对计数、主体指代、语义对应、时间感知和鲁棒性五个维度的综合评估,我们发现当前的多模态LLM在语义对应和时间感知方面需要改进,但它们初步展示了动物活动识别的视觉感知能力。值得注意的是,GPT-4o表现出色,Video-Chat2和GPT-4o在特写视频片段中表现出比完整视频片段更好的语义对应和时间感知。本研究的初步评估实验验证了多模态大语言模型在畜牧场景视频理解中的潜力,并为未来动物行为视频理解的研究提供了新的方向和参考。此外,通过深入探索视觉提示对多模态大语言模型的影响,我们期望通过人类视觉处理方法提高畜牧场景下动物行为识别的准确性和效率。

🔬 方法详解

问题定义:论文旨在评估多模态大语言模型在理解动物行为视频方面的能力,特别是针对猪仔的行为识别。现有方法依赖人工标注,耗时耗力且主观性强。多模态LLM有望自动化这一过程,但其在动物行为理解方面的性能尚未充分评估。

核心思路:论文的核心思路是利用多模态LLM的视觉感知能力,直接从视频中提取信息并理解动物行为。通过构建包含不同视角的猪仔行为视频数据集,并设计多个评估维度,来全面评估LLM的性能。

技术框架:整体框架包括:1) 构建猪仔行为视频数据集,包含特写和全景两种视角;2) 选择四种代表性的多模态LLM(Video-LLaMA、MiniGPT4-Video、Video-Chat2和GPT-4o);3) 设计五个评估维度:计数、主体指代、语义对应、时间感知和鲁棒性;4) 对LLM在各个维度上的表现进行定量和定性分析。

关键创新:该研究的关键创新在于首次系统性地评估了多模态LLM在动物行为理解领域的视觉感知能力。通过构建专门的猪仔行为数据集和设计多维度的评估体系,为后续研究提供了基准和参考。

关键设计:数据集包含特写和全景两种视角,以考察LLM对不同尺度信息的处理能力。评估维度涵盖了动物行为理解的关键方面,如数量、身份、行为类型和时间关系。实验中,通过对比不同LLM在各个维度上的表现,分析了它们的优势和不足。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4o在猪仔行为理解方面表现突出,尤其在特写视频片段中,Video-Chat2和GPT-4o在语义对应和时间感知方面优于全景视频片段。这表明,多模态LLM在动物行为识别方面具有潜力,但仍需在语义理解和时间推理方面进行改进。

🎯 应用场景

该研究成果可应用于智能畜牧业,实现动物行为的自动监测和分析,从而提高养殖效率、改善动物福利。例如,可以利用该技术自动识别猪仔的异常行为,及时发现疾病或应激反应,并采取相应措施。未来,该技术还可扩展到其他动物种类,为动物行为学研究提供新的工具。

📄 摘要(原文)

Animal ethology is an crucial aspect of animal research, and animal behavior labeling is the foundation for studying animal behavior. This process typically involves labeling video clips with behavioral semantic tags, a task that is complex, subjective, and multimodal. With the rapid development of multimodal large language models(LLMs), new application have emerged for animal behavior understanding tasks in livestock scenarios. This study evaluates the visual perception capabilities of multimodal LLMs in animal activity recognition. To achieve this, we created piglet test data comprising close-up video clips of individual piglets and annotated full-shot video clips. These data were used to assess the performance of four multimodal LLMs-Video-LLaMA, MiniGPT4-Video, Video-Chat2, and GPT-4 omni (GPT-4o)-in piglet activity understanding. Through comprehensive evaluation across five dimensions, including counting, actor referring, semantic correspondence, time perception, and robustness, we found that while current multimodal LLMs require improvement in semantic correspondence and time perception, they have initially demonstrated visual perception capabilities for animal activity recognition. Notably, GPT-4o showed outstanding performance, with Video-Chat2 and GPT-4o exhibiting significantly better semantic correspondence and time perception in close-up video clips compared to full-shot clips. The initial evaluation experiments in this study validate the potential of multimodal large language models in livestock scene video understanding and provide new directions and references for future research on animal behavior video understanding. Furthermore, by deeply exploring the influence of visual prompts on multimodal large language models, we expect to enhance the accuracy and efficiency of animal behavior recognition in livestock scenarios through human visual processing methods.