MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning

作者: Aritra Dutta, Somak Aditya

分类: cs.AI, cs.CL

发布日期: 2026-05-25

备注: First Preprint

💡 一句话要点

提出MuCRASP，通过结构化剪枝提升多模态链式推理大模型的效率和准确性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 链式思考 结构化剪枝 视觉-语言模型 模型压缩

📋 核心要点

现有VLM剪枝方法忽略了CoT推理对稀疏枢轴token的依赖，且未考虑跨模态激活分布差异，导致推理性能下降。
MuCRASP框架通过识别并保留推理关键组件，同时对齐跨模态特征，并根据层敏感度进行剪枝，从而优化模型。
实验表明，MuCRASP在多种VLM和推理任务上，显著优于现有剪枝方法，能在更高压缩率下保持推理质量和一致性。

📝 摘要（中文）

视觉-语言模型（VLMs）越来越多地依赖于链式思考（CoT）推理来解决复杂的任务，但其庞大的参数规模使得部署成本高昂。结构化剪枝提供了一个自然的解决方案；然而，现有的方法未能保持VLMs中CoT推理的准确性。我们发现了两个关键原因：（1）CoT一致性依赖于生成轨迹中的稀疏转换点（枢轴token），而现有的剪枝方法与CoT无关；（2）为单模态LLMs设计的剪枝方法没有考虑到视觉和文本模态之间激活分布的差异。基于这些观察，我们提出了MuCRASP，一个结构化剪枝框架，旨在针对推理关键组件，同时保持跨模态对齐，并在全局参数预算下考虑逐层敏感性。在三个推理基准测试中对四个VLMs的实验表明，MuCRASP在增加压缩率的情况下始终保持推理质量。在Qwen2.5-VL-7B上进行30%剪枝时，MuCRASP在物理推理任务上获得了8.87的LLM-as-a-Judge评分，而最强的基线为7.32。此外，MuCRASP保持了高达50%剪枝的高推理一致性，显著优于先前的剪枝方法，同时表现出较低的困惑度下降。

🔬 方法详解

问题定义：现有视觉-语言模型（VLM）的结构化剪枝方法在保持链式思考（CoT）推理能力方面存在不足。这些方法忽略了CoT推理过程中关键的枢轴token，并且没有充分考虑视觉和文本模态之间激活分布的差异，导致剪枝后模型推理性能显著下降。

核心思路：MuCRASP的核心思路是设计一种CoT感知的结构化剪枝框架，该框架能够识别并保留对CoT推理至关重要的组件，同时保持跨模态特征的对齐。通过关注推理关键部分，并根据不同层的敏感度进行剪枝，从而在保证推理性能的同时，实现更高的压缩率。

技术框架：MuCRASP框架包含以下主要模块：1) CoT关键组件识别：通过分析CoT生成轨迹，识别对推理至关重要的枢轴token。2) 跨模态对齐：采用特定损失函数，确保视觉和文本模态在剪枝过程中保持特征对齐。3) 层敏感度分析：评估不同层对推理性能的影响，并根据敏感度分配剪枝预算。4) 结构化剪枝：根据上述分析结果，对模型进行结构化剪枝，移除冗余参数。

关键创新：MuCRASP的关键创新在于其CoT感知的剪枝策略和跨模态对齐机制。与现有方法不同，MuCRASP显式地考虑了CoT推理过程中的关键信息，并针对性地保护这些信息。此外，通过跨模态对齐，确保剪枝后的模型能够有效地融合视觉和文本信息，从而提高推理准确性。

关键设计：MuCRASP的关键设计包括：1) 使用注意力机制来识别枢轴token。2) 设计跨模态对齐损失函数，例如对比学习损失或知识蒸馏损失。3) 采用基于梯度的敏感度分析方法，评估不同层的重要性。4) 使用全局参数预算约束，在满足压缩率要求的同时，优化模型性能。

🖼️ 关键图片

📊 实验亮点

MuCRASP在Qwen2.5-VL-7B模型上进行30%剪枝时，在物理推理任务上获得了8.87的LLM-as-a-Judge评分，显著优于最强基线（7.32）。此外，MuCRASP在高达50%的剪枝率下仍能保持较高的推理一致性，并表现出较低的困惑度下降，表明其在压缩模型的同时，能够有效保留模型的推理能力。

🎯 应用场景

MuCRASP可应用于各种需要高效部署的视觉-语言模型，例如移动设备上的智能助手、边缘计算环境下的图像理解系统、以及资源受限的机器人应用。通过降低模型大小和计算复杂度，MuCRASP能够加速VLM在实际场景中的应用，并降低部署成本，推动多模态人工智能技术的发展。

📄 摘要（原文）

Vision-language models (VLMs) increasingly rely on chain-of-thought (CoT) reasoning to solve complex multimodal tasks, but their large parameter sizes make deployment expensive. Structured pruning offers a natural solution; however, existing methods fail to preserve CoT reasoning accuracy in VLMs. We identify two key reasons: (1) CoT consistency depends on sparse transition points (pivot tokens) in the generation trajectory, while existing pruning methods are CoT-agnostic; and (2) pruning methods designed for unimodal LLMs do not account for activation-distribution differences across visual and textual modalities. Motivated by these observations, we propose MuCRASP, a structured pruning framework that targets reasoning-critical components while preserving cross-modal alignment and accounting for layer-wise sensitivity under a global parameter budget. Experiments on four VLMs across three reasoning benchmarks show that MuCRASP consistently preserves reasoning quality under increasing compression. At 30% pruning on Qwen2.5-VL-7B, MuCRASP achieves an LLM-as-a-Judge score of 8.87 versus 7.32 for the strongest baseline on physical reasoning tasks. Furthermore, MuCRASP maintains high reasoning consistency up to 50% pruning, significantly outperforming prior pruning approaches while exhibiting lower perplexity degradation.

MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理