MuCRASP: Multimodal Chain-of-thought Reasoning aware Structured Pruning
作者: Aritra Dutta, Somak Aditya
分类: cs.AI, cs.CL
发布日期: 2026-05-25
备注: First Preprint
💡 一句话要点
提出MuCRASP,通过结构化剪枝提升多模态链式推理大模型的效率和准确性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 链式思考 结构化剪枝 视觉-语言模型 模型压缩
📋 核心要点
- 现有VLM剪枝方法忽略了CoT推理对稀疏枢轴token的依赖,且未考虑跨模态激活分布差异,导致推理性能下降。
- MuCRASP框架通过识别并保留推理关键组件,同时对齐跨模态特征,并根据层敏感度进行剪枝,从而优化模型。
- 实验表明,MuCRASP在多种VLM和推理任务上,显著优于现有剪枝方法,能在更高压缩率下保持推理质量和一致性。
📝 摘要(中文)
视觉-语言模型(VLMs)越来越多地依赖于链式思考(CoT)推理来解决复杂的任务,但其庞大的参数规模使得部署成本高昂。结构化剪枝提供了一个自然的解决方案;然而,现有的方法未能保持VLMs中CoT推理的准确性。我们发现了两个关键原因:(1)CoT一致性依赖于生成轨迹中的稀疏转换点(枢轴token),而现有的剪枝方法与CoT无关;(2)为单模态LLMs设计的剪枝方法没有考虑到视觉和文本模态之间激活分布的差异。基于这些观察,我们提出了MuCRASP,一个结构化剪枝框架,旨在针对推理关键组件,同时保持跨模态对齐,并在全局参数预算下考虑逐层敏感性。在三个推理基准测试中对四个VLMs的实验表明,MuCRASP在增加压缩率的情况下始终保持推理质量。在Qwen2.5-VL-7B上进行30%剪枝时,MuCRASP在物理推理任务上获得了8.87的LLM-as-a-Judge评分,而最强的基线为7.32。此外,MuCRASP保持了高达50%剪枝的高推理一致性,显著优于先前的剪枝方法,同时表现出较低的困惑度下降。
🔬 方法详解
问题定义:现有视觉-语言模型(VLM)的结构化剪枝方法在保持链式思考(CoT)推理能力方面存在不足。这些方法忽略了CoT推理过程中关键的枢轴token,并且没有充分考虑视觉和文本模态之间激活分布的差异,导致剪枝后模型推理性能显著下降。
核心思路:MuCRASP的核心思路是设计一种CoT感知的结构化剪枝框架,该框架能够识别并保留对CoT推理至关重要的组件,同时保持跨模态特征的对齐。通过关注推理关键部分,并根据不同层的敏感度进行剪枝,从而在保证推理性能的同时,实现更高的压缩率。
技术框架:MuCRASP框架包含以下主要模块:1) CoT关键组件识别:通过分析CoT生成轨迹,识别对推理至关重要的枢轴token。2) 跨模态对齐:采用特定损失函数,确保视觉和文本模态在剪枝过程中保持特征对齐。3) 层敏感度分析:评估不同层对推理性能的影响,并根据敏感度分配剪枝预算。4) 结构化剪枝:根据上述分析结果,对模型进行结构化剪枝,移除冗余参数。
关键创新:MuCRASP的关键创新在于其CoT感知的剪枝策略和跨模态对齐机制。与现有方法不同,MuCRASP显式地考虑了CoT推理过程中的关键信息,并针对性地保护这些信息。此外,通过跨模态对齐,确保剪枝后的模型能够有效地融合视觉和文本信息,从而提高推理准确性。
关键设计:MuCRASP的关键设计包括:1) 使用注意力机制来识别枢轴token。2) 设计跨模态对齐损失函数,例如对比学习损失或知识蒸馏损失。3) 采用基于梯度的敏感度分析方法,评估不同层的重要性。4) 使用全局参数预算约束,在满足压缩率要求的同时,优化模型性能。
🖼️ 关键图片
📊 实验亮点
MuCRASP在Qwen2.5-VL-7B模型上进行30%剪枝时,在物理推理任务上获得了8.87的LLM-as-a-Judge评分,显著优于最强基线(7.32)。此外,MuCRASP在高达50%的剪枝率下仍能保持较高的推理一致性,并表现出较低的困惑度下降,表明其在压缩模型的同时,能够有效保留模型的推理能力。
🎯 应用场景
MuCRASP可应用于各种需要高效部署的视觉-语言模型,例如移动设备上的智能助手、边缘计算环境下的图像理解系统、以及资源受限的机器人应用。通过降低模型大小和计算复杂度,MuCRASP能够加速VLM在实际场景中的应用,并降低部署成本,推动多模态人工智能技术的发展。
📄 摘要(原文)
Vision-language models (VLMs) increasingly rely on chain-of-thought (CoT) reasoning to solve complex multimodal tasks, but their large parameter sizes make deployment expensive. Structured pruning offers a natural solution; however, existing methods fail to preserve CoT reasoning accuracy in VLMs. We identify two key reasons: (1) CoT consistency depends on sparse transition points (pivot tokens) in the generation trajectory, while existing pruning methods are CoT-agnostic; and (2) pruning methods designed for unimodal LLMs do not account for activation-distribution differences across visual and textual modalities. Motivated by these observations, we propose MuCRASP, a structured pruning framework that targets reasoning-critical components while preserving cross-modal alignment and accounting for layer-wise sensitivity under a global parameter budget. Experiments on four VLMs across three reasoning benchmarks show that MuCRASP consistently preserves reasoning quality under increasing compression. At 30% pruning on Qwen2.5-VL-7B, MuCRASP achieves an LLM-as-a-Judge score of 8.87 versus 7.32 for the strongest baseline on physical reasoning tasks. Furthermore, MuCRASP maintains high reasoning consistency up to 50% pruning, significantly outperforming prior pruning approaches while exhibiting lower perplexity degradation.