Mimic Human Cognition, Master Multi-Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding

作者: Jianghao Yin, Qingbin Li, Kun Sun, Cheng Ding, Jie Wang, Qin Chen, Jie Zhou, Nan Wang, Changqing Li, Pei Wu, Jian Xu, Zheming Yang, Liang He

分类: cs.CV

发布日期: 2026-01-12

💡 一句话要点

提出CINEMA框架，模拟人类认知过程，提升多图推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多图推理 认知模型 元动作框架 强化学习 视频理解

📋 核心要点

多模态大语言模型在多图推理任务中性能下降，原因是图像间关系复杂，关键信息分散。
CINEMA框架模拟人类认知过程，将多图推理分解为全局、聚焦、提示、思考和回答五个元动作。
实验结果表明，CINEMA在多图推理和视频理解基准测试中取得了领先性能，甚至超越了GPT-4o。

📝 摘要（中文）

多模态大型语言模型(MLLM)在单图理解方面表现出色，但在多图推理场景中性能显著下降。多图推理面临图像间复杂关系和关键信息分散等挑战。受人类认知过程启发，我们提出了认知启发元动作框架(CINEMA)，将多图推理分解为五个结构化元动作：全局、聚焦、提示、思考和回答，显式地建模人类自然采用的顺序认知步骤。对于冷启动训练，我们引入了一种基于检索的树采样策略，生成高质量的元动作轨迹，以推理模式引导模型。在强化学习过程中，我们采用两阶段范式：一个具有多样性保持策略的探索阶段，以避免熵崩溃，然后是一个具有DAPO的退火利用阶段，以逐步加强利用。为了训练我们的模型，我们构建了一个包含57k冷启动和58k强化学习实例的数据集，涵盖多图、多帧和单图任务。我们在多图推理基准、视频理解基准和单图基准上进行了广泛的评估，在几个关键基准上取得了具有竞争力的最先进的性能。我们的模型在MUIR和MVMath基准上超过了GPT-4o，并在视频理解基准上显著优于专门的视频推理模型，证明了我们受人类认知启发的推理框架的有效性和通用性。

🔬 方法详解

问题定义：论文旨在解决多图推理任务中，现有MLLM模型性能不足的问题。现有方法难以有效处理图像之间的复杂关系，并且无法从分散在多张图像中的信息中提取关键线索，导致推理能力下降。

核心思路：论文的核心思路是模拟人类的认知过程，将复杂的多图推理任务分解为一系列更易于管理的认知步骤。通过显式地建模这些步骤，模型可以更有效地理解图像之间的关系，并提取关键信息进行推理。这种方法借鉴了人类在解决复杂问题时常用的分而治之的策略。

技术框架：CINEMA框架包含五个关键的元动作：Global（全局观察）、Focus（聚焦关键区域）、Hint（获取提示信息）、Think（进行思考推理）和Answer（给出答案）。模型首先进行全局观察，然后聚焦于图像中的关键区域，获取提示信息，进行思考推理，最后给出答案。为了训练模型，论文采用了两阶段的训练策略：首先使用检索式树采样生成高质量的元动作轨迹进行冷启动训练，然后使用强化学习进行优化。强化学习阶段又分为探索阶段和利用阶段，分别采用多样性保持策略和DAPO算法。

关键创新：论文的关键创新在于提出了CINEMA框架，将人类的认知过程显式地建模到多图推理任务中。这种方法与现有方法的主要区别在于，它不是直接将多张图像输入模型进行推理，而是通过一系列结构化的认知步骤逐步进行推理。此外，论文还提出了检索式树采样策略和两阶段强化学习策略，进一步提高了模型的性能。

关键设计：在冷启动训练阶段，论文使用检索式树采样策略生成高质量的元动作轨迹。在强化学习阶段，探索阶段采用多样性保持策略，避免熵崩溃；利用阶段采用DAPO算法，逐步加强利用。数据集包含57k冷启动实例和58k强化学习实例，涵盖多图、多帧和单图任务。

🖼️ 关键图片

📊 实验亮点

CINEMA在MUIR和MVMath等多图推理基准测试中超越了GPT-4o，并在视频理解基准测试中显著优于专门的视频推理模型。这些结果表明，CINEMA框架能够有效地提升多图推理和视频理解能力，具有很强的通用性和竞争力。

🎯 应用场景

该研究成果可应用于智能问答、视觉导航、视频监控、医学影像分析等领域。通过模拟人类认知过程，可以提升机器在复杂视觉场景下的理解和推理能力，从而实现更智能、更可靠的应用。

📄 摘要（原文）

While Multimodal Large Language Models (MLLMs) excel at single-image understanding, they exhibit significantly degraded performance in multi-image reasoning scenarios. Multi-image reasoning presents fundamental challenges including complex inter-relationships between images and scattered critical information across image sets. Inspired by human cognitive processes, we propose the Cognition-Inspired Meta-Action Framework (CINEMA), a novel approach that decomposes multi-image reasoning into five structured meta-actions: Global, Focus, Hint, Think, and Answer which explicitly modeling the sequential cognitive steps humans naturally employ. For cold-start training, we introduce a Retrieval-Based Tree Sampling strategy that generates high-quality meta-action trajectories to bootstrap the model with reasoning patterns. During reinforcement learning, we adopt a two-stage paradigm: an exploration phase with Diversity-Preserving Strategy to avoid entropy collapse, followed by an annealed exploitation phase with DAPO to gradually strengthen exploitation. To train our model, we construct a dataset of 57k cold-start and 58k reinforcement learning instances spanning multi-image, multi-frame, and single-image tasks. We conduct extensive evaluations on multi-image reasoning benchmarks, video understanding benchmarks, and single-image benchmarks, achieving competitive state-of-the-art performance on several key benchmarks. Our model surpasses GPT-4o on the MUIR and MVMath benchmarks and notably outperforms specialized video reasoning models on video understanding benchmarks, demonstrating the effectiveness and generalizability of our human cognition-inspired reasoning framework.

Mimic Human Cognition, Master Multi-Image Reasoning: A Meta-Action Framework for Enhanced Visual Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理