DeltaPrompts: Escaping the Zero-Delta Trap in Multimodal Distillation
作者: Jaehun Jung, Hyunwoo Kim, Brandon Cui, Ximing Lu, David Acuna, Prithviraj Ammanabrolu, Yejin Choi
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-15
💡 一句话要点
提出DeltaPrompts,通过主动挖掘高差异性提示,提升多模态蒸馏效果。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 知识蒸馏 视觉-语言模型 主动学习 提示工程 数据合成 模型优化
📋 核心要点
- 现有蒸馏方法依赖启发式或聚合提示,导致大量提示为“零差异”,无法有效提升学生模型。
- DeltaPrompts的核心在于主动寻找并生成教师和学生模型存在显著差异的提示,以最大化蒸馏的学习信号。
- 实验表明,DeltaPrompts在多种场景下均能显著提升模型性能,即使在强基线上也能获得高达15%的相对改进。
📝 摘要(中文)
蒸馏技术使紧凑型视觉-语言模型(VLM)获得强大的推理能力,但驱动这一过程的提示通常通过简单的启发式方法选择或从现成的数据集中聚合。本文揭示了这种方法的一个关键低效之处:标准图表/文档推理数据集中高达69%的提示实际上是零差异的,这意味着教师和学生已经产生了完全相同的答案分布。在这些提示上训练提供的学习信号极小,导致学生改进迅速饱和,而与数据规模无关。为了摆脱零差异陷阱,本文回归第一性原理:蒸馏从根本上最小化分布差异,因此只有当提示暴露了教师和学生之间的功能能力差距时,它才是有价值的。本文通过答案差异($Δ$)量化了这种差距,证明了非零差异对于有效的扩展至关重要。在此基础上,本文提出了一种分阶段合成管道,该管道将现有数据集重新用作种子,主动针对学生失败模式以生成更好的提示。结果是DeltaPrompts,一个包含20万个合成的、高差异推理问题的多样化数据集。本文在三种不同的设置中评估了DeltaPrompts:使用目标教师-学生对进行策略内蒸馏,转移到新的模型系列而不重新生成数据,以及对非推理模型进行策略外微调。在所有场景中,DeltaPrompts都带来了显著的收益,即使在高度优化的推理模型(例如,Qwen3-VL-8B-Thinking)之上,也能产生高达15%的相对改进——平均超过10个涵盖图表、文档和以感知为中心的推理的基准。
🔬 方法详解
问题定义:现有视觉-语言模型蒸馏方法在选择训练提示时存在效率问题。大量使用的提示(例如,从现有数据集中获取的提示)实际上是“零差异”的,即教师模型和学生模型对于这些提示产生相同的预测结果。在这些提示上进行训练无法提供有效的学习信号,导致学生模型的性能提升迅速饱和。
核心思路:论文的核心思路是,有效的蒸馏训练应该关注那些能够暴露教师模型和学生模型之间能力差距的提示。换句话说,只有当教师模型和学生模型对于某个提示的预测结果存在显著差异时,该提示才能提供有价值的学习信号。因此,论文的目标是找到或生成那些能够最大化教师模型和学生模型之间预测差异的提示。
技术框架:DeltaPrompts的生成过程是一个分阶段的合成管道,主要包括以下几个阶段:1) 种子数据集选择:选择现有的数据集作为生成新提示的起点。2) 学生模型失败模式分析:分析学生模型在种子数据集上的表现,识别其容易出错的提示类型。3) 提示生成:基于学生模型的失败模式,生成新的提示,目标是最大化教师模型和学生模型之间的预测差异。4) 数据过滤与增强:对生成的提示进行过滤,去除质量较差的提示,并进行数据增强,以增加数据集的多样性。
关键创新:DeltaPrompts的关键创新在于其主动寻找高差异性提示的策略。与传统的蒸馏方法不同,DeltaPrompts不是简单地使用现有的提示,而是通过分析学生模型的失败模式,有针对性地生成那些能够暴露教师模型和学生模型之间能力差距的提示。这种主动学习的策略能够更有效地利用数据,提高蒸馏训练的效率。
关键设计:在提示生成阶段,论文使用了一种基于梯度的方法来生成新的提示。具体来说,论文首先计算教师模型和学生模型对于某个提示的预测结果之间的差异,然后使用梯度下降法来修改该提示,使得教师模型和学生模型之间的预测差异最大化。此外,论文还使用了一些启发式规则来约束生成的提示,以保证其质量和可读性。在损失函数方面,论文使用了交叉熵损失函数来衡量教师模型和学生模型之间的预测差异。
📊 实验亮点
实验结果表明,DeltaPrompts在多个基准测试中均取得了显著的性能提升。例如,在Qwen3-VL-8B-Thinking模型上,使用DeltaPrompts进行微调后,模型在10个涵盖图表、文档和以感知为中心的推理任务上的平均性能提升了15%。此外,DeltaPrompts还具有良好的泛化能力,即使在未参与数据生成的模型上也能取得显著的性能提升。
🎯 应用场景
DeltaPrompts可应用于各种需要知识蒸馏的场景,尤其是在资源受限的设备上部署大型视觉-语言模型。通过更有效地利用训练数据,DeltaPrompts能够帮助小型模型获得与大型模型相媲美的性能,从而降低计算成本和能源消耗。该方法在文档理解、图表分析、机器人视觉等领域具有广泛的应用前景。
📄 摘要(原文)
Distillation enables compact Vision-Language Models (VLMs) to obtain strong reasoning capabilities, yet the prompts driving this process are typically chosen via simple heuristics or aggregated from off-the-shelf datasets. We reveal a critical inefficiency in this approach: up to 69% of the prompts in standard chart / document reasoning datasets are effectively zero-delta, meaning the teacher and student already induce the exact same answer distribution. Training on these prompts provides minimal learning signal, causing student improvement to rapidly saturate regardless of data scale. To escape the zero-delta trap, we return to first principles: distillation fundamentally minimizes distributional divergence, and thus a prompt is valuable only if it exposes a functional capability gap between the teacher and student. We quantify this gap through answer divergence ($Δ$), demonstrating that non-zero divergence is critical for effective scaling. Building on this insight, we propose a staged synthesis pipeline that repurposes existing datasets as seeds, actively targeting student failure modes to produce better prompts. The result is DeltaPrompts, a diverse dataset of 200k synthetic, high-divergence reasoning problems. We evaluate DeltaPrompts across three distinct settings: on-policy distillation with the target teacher-student pair, transfer to a novel model family without regenerating the data, and off-policy fine-tuning of a non-reasoning model. Across all scenarios, DeltaPrompts drives substantial gains, yielding up to 15% relative improvement even on top of a highly-optimized reasoning model (e.g., Qwen3-VL-8B-Thinking) -- averaged over 10 benchmarks spanning chart, document and perception-centric reasoning.