Stabilizing Unsupervised Self-Evolution of MLLMs via Continuous Softened Retracing reSampling
作者: Yunyao Yu, Zhengxian Wu, Zhuohong Chen, Hangrui Xu, Zirui Liao, Xiangwen Deng, Zhifang Liu, Senyuan Shi, Haoqian Wang
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出CSRS方法,稳定多模态大语言模型在几何任务上的无监督自进化学习。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 无监督学习 自进化 回溯重推理 软化频率奖励
📋 核心要点
- 现有自进化方法依赖多数投票易受模型偏差影响,无法保证推理路径的客观正确性,导致性能退化。
- 提出连续软化回溯重采样(CSRS)方法,通过回溯重推理、软化频率奖励和视觉语义扰动来解决上述问题。
- 实验表明,CSRS显著提升了Qwen2.5-VL-7B在MathVision等基准上的推理性能,并在几何任务上取得SOTA结果。
📝 摘要(中文)
在多模态大语言模型的无监督自进化过程中,后训练阶段反馈信号的质量对于稳定和有效的学习至关重要。然而,现有的自进化方法主要依赖于多数投票来选择最频繁的输出作为伪黄金答案,这可能源于模型固有的偏差,而不能保证推理路径的客观正确性。为了对抗这种退化,我们提出了多模态大语言模型自进化中的连续软化回溯重采样(CSRS)。具体来说,我们引入了一种回溯重推理机制(RRM),模型从锚点重新推理,以扩大对长尾推理路径的探索。同时,我们提出了软化频率奖励(SFR),用连续信号代替二元奖励,根据答案在采样推理集中的频率来校准奖励。此外,结合视觉语义扰动(VSP),CSRS确保模型优先考虑数学逻辑而不是视觉表面性。实验结果表明,CSRS显著提高了Qwen2.5-VL-7B在MathVision等基准测试上的推理性能。我们在几何任务的无监督自进化方面取得了最先进(SOTA)的结果。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在无监督自进化学习中,由于伪标签生成质量不高导致的性能退化问题。现有方法主要依赖多数投票生成伪标签,但这种方法容易受到模型自身偏差的影响,无法保证推理路径的正确性,从而导致模型在自进化过程中学习到错误的知识。
核心思路:论文的核心思路是通过更精细的奖励机制和更全面的推理路径探索来提升伪标签的质量,从而稳定自进化过程。具体来说,通过回溯重推理机制(RRM)探索更多可能的推理路径,利用软化频率奖励(SFR)对答案的频率进行加权,并结合视觉语义扰动(VSP)来减少模型对视觉表面信息的依赖,从而提升模型对数学逻辑的理解。
技术框架:CSRS方法的整体框架包含以下几个主要模块:1) 回溯重推理机制(RRM):从推理路径中的锚点重新进行推理,生成多个推理路径。2) 软化频率奖励(SFR):根据答案在所有推理路径中的频率,计算一个连续的奖励值。3) 视觉语义扰动(VSP):对输入图像进行扰动,迫使模型关注数学逻辑而不是视觉表面信息。整个流程是,首先使用RRM生成多个推理路径,然后使用VSP对输入进行扰动,接着使用SFR计算奖励值,最后使用该奖励值来更新模型。
关键创新:论文的关键创新在于提出了连续软化回溯重采样(CSRS)方法,该方法通过以下几个方面改进了现有的自进化学习方法:1) 引入回溯重推理机制,扩大了推理路径的探索范围。2) 使用软化频率奖励代替二元奖励,提供了更精细的反馈信号。3) 结合视觉语义扰动,减少了模型对视觉表面信息的依赖。这些创新共同作用,提升了伪标签的质量,从而稳定了自进化过程。
关键设计:在回溯重推理机制(RRM)中,锚点的选择策略和重推理的次数是关键参数。在软化频率奖励(SFR)中,频率到奖励值的映射函数的设计至关重要,需要平衡频率高的答案和频率低的答案之间的奖励差异。在视觉语义扰动(VSP)中,扰动的类型和强度需要仔细选择,以确保模型能够关注数学逻辑,同时避免过度扰动导致模型无法理解输入。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CSRS方法在MathVision等基准测试上显著提高了Qwen2.5-VL-7B的推理性能,并在几何任务的无监督自进化方面取得了SOTA结果。具体性能提升数据在论文中给出,相较于现有方法,CSRS能够更有效地利用未标注数据进行自学习,从而提升模型的推理能力。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型在需要复杂推理和逻辑理解的任务上的性能,例如几何问题求解、科学推理、以及需要结合视觉信息和语言理解的智能问答系统。通过无监督自进化,可以降低对大量标注数据的依赖,从而加速模型在特定领域的应用。
📄 摘要(原文)
In the unsupervised self-evolution of Multimodal Large Language Models, the quality of feedback signals during post-training is pivotal for stable and effective learning. However, existing self-evolution methods predominantly rely on majority voting to select the most frequent output as the pseudo-golden answer, which may stem from the model's intrinsic biases rather than guaranteeing the objective correctness of the reasoning paths. To counteract the degradation, we propose \textbf{C}ontinuous \textbf{S}oftened \textbf{R}etracing re\textbf{S}ampling (\textbf{CSRS}) in MLLM self-evolution. Specifically, we introduce a Retracing Re-inference Mechanism (\textbf{RRM}) that the model re-inferences from anchor points to expand the exploration of long-tail reasoning paths. Simultaneously, we propose Softened Frequency Reward (\textbf{SFR}), which replaces binary rewards with continuous signals, calibrating reward based on the answers' frequency across sampled reasoning sets. Furthermore, incorporated with Visual Semantic Perturbation (\textbf{VSP}), CSRS ensures the model prioritizes mathematical logic over visual superficiality. Experimental results demonstrate that CSRS significantly enhances the reasoning performance of Qwen2.5-VL-7B on benchmarks such as MathVision. We achieve state-of-the-art (SOTA) results in unsupervised self-evolution on geometric tasks. Our code is avaible atthis https URL.