MTT-Bench: Predicting Social Dominance in Mice via Multimodal Large Language Models

作者: Yunquan Chen, Haoyu Chen

分类: eess.IV, cs.CV

发布日期: 2026-04-24

备注: 8 pages, 2 figures. Submitted to conference

💡 一句话要点

提出MTT-Bench，利用多模态大语言模型预测小鼠社会支配等级

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 动物行为分析 社会支配等级 零样本学习 行为视频理解

📋 核心要点

动物社会支配等级是神经科学和行为学研究的关键，但现有方法在处理原始行为视频数据方面存在局限性。
本研究利用多模态大语言模型，直接分析小鼠行为视频，预测其社会支配等级，无需人工特征工程。
通过在MTT-Bench基准数据集上的实验，验证了该框架在零样本推理中预测社会支配地位的有效性，并与传统管测试结果高度一致。

📝 摘要（中文）

本研究旨在探索多模态大语言模型(MLLMs)分析小鼠行为视频并预测其支配等级的能力，这对于神经科学和行为学研究至关重要。我们提出了MTT-Bench，这是一个新的基准数据集，包含用于小鼠管测试分析的成对小鼠互动注释视频。我们基于现有的MLLM架构，对这些模型进行微调，以对未见过的行为序列执行零样本推理，从而在测试期间无需显式标签即可预测社会支配地位。我们的框架展示了有希望的结果，与管测试排名高度一致。这项工作为将基础模型应用于动物行为学和社会行为分析开辟了一个新方向，而无需设计特定领域的模型。

🔬 方法详解

问题定义：论文旨在解决从小鼠行为视频中自动预测其社会支配等级的问题。现有方法通常需要人工设计的特征或者特定领域的模型，泛化能力有限，且依赖于大量的标注数据。因此，如何利用更通用的模型，直接从原始视频数据中学习并预测社会支配等级，是一个重要的挑战。

核心思路：论文的核心思路是利用多模态大语言模型(MLLMs)的强大表征学习能力，将视频信息和语言信息进行融合，从而实现对小鼠社会行为的理解和预测。通过将视频帧作为视觉输入，结合文本提示，MLLM能够学习到小鼠行为与社会支配地位之间的关系。

技术框架：整体框架包括以下几个主要步骤：1) 构建MTT-Bench数据集，包含成对小鼠互动视频和相应的社会支配等级标签（用于评估）。2) 选择预训练的多模态大语言模型（如基于Transformer的架构）。3) 对MLLM进行微调，使其能够理解视频输入并预测社会支配等级。4) 在测试阶段，使用零样本推理，即在没有显式标签的情况下，直接预测未见过的行为序列的社会支配等级。

关键创新：最重要的技术创新点在于将多模态大语言模型应用于动物行为分析领域，并实现了零样本推理。这避免了传统方法中需要大量标注数据和领域特定模型的问题，提高了模型的泛化能力和应用潜力。

关键设计：论文的关键设计包括：1) MTT-Bench数据集的构建，确保了数据的质量和多样性。2) MLLM的选择和微调策略，例如，选择合适的预训练模型和调整学习率等超参数。3) 文本提示的设计，例如，使用“哪个小鼠更具支配力？”等问题引导模型进行预测。4) 评估指标的选择，例如，使用准确率和一致性等指标评估模型的性能。

🖼️ 关键图片

📊 实验亮点

该研究在MTT-Bench数据集上取得了显著成果，证明了MLLM在预测小鼠社会支配等级方面的有效性。实验结果显示，该框架与传统的管测试排名高度一致，表明MLLM能够学习到小鼠行为与社会支配地位之间的复杂关系，并实现零样本推理。具体的性能数据和对比基线未在摘要中明确给出，属于未知信息。

🎯 应用场景

该研究成果可应用于动物行为学、神经科学和社会行为研究等领域。通过自动分析动物行为视频，可以更高效地研究社会互动、等级制度和行为模式。此外，该方法还可扩展到其他动物物种，为理解动物社会行为提供新的工具和视角，并可能应用于动物福利评估和保护。

📄 摘要（原文）

Understanding social dominance in animal behavior is critical for neuroscience and behavioral studies. In this work, we explore the capability of Multimodal Large Language Models(MLLMs) to analyze raw behavioral video of mice and predict their dominance hierarchy. We introduce MTT-Bench, a novel benchmark comprising annotated videos of pairwise mouse interactions for Mouse Tube Test analysis. Building on existing MLLM architectures, we fine-tune these models to perform zero-shot inference on unseen behavioral sequences, predicting social dominance without explicit labels during testing. Our framework demonstrates promising results, showing high agreement with tube test rankings. This work opens a new direction for applying foundation models to ethology and social behavior analysis, without the need to design domain-specific models.

MTT-Bench: Predicting Social Dominance in Mice via Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理