DRIFT: A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models

📄 arXiv: 2606.05758v1 📥 PDF

作者: Zhuoming Liu, Jinhong Lin, Kwan Man Cheng, Lin Zhang, Shayok Bagchi, Yin Li

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-06-04


💡 一句话要点

提出DRIFT以解决视觉语言模型连续输出解码问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 连续输出 流匹配 生成细化 机器人控制 多模态学习 优化算法

📋 核心要点

  1. 现有的视觉语言模型主要依赖离散标记的自回归解码,难以处理需要精确连续输出的任务。
  2. DRIFT通过结合基础预测器和生成细化模块,采用流匹配技术,逐步改进预测结果,适配于连续解码任务。
  3. 在视觉定位和机器人控制等任务中,DRIFT在多个架构上表现优异,超越了多种回归和生成方法的基线。

📝 摘要(中文)

许多现代视觉语言模型(VLMs)基于自回归解码离散标记。然而,文本输出接口在需要精确连续输出的任务中表现不佳,例如事件的时间边界定位或生成机器人控制动作。为了解决这一挑战,本文提出了DRIFT,一个通用框架,用于将预训练的VLM适配到连续解码任务。DRIFT结合了基础预测器和基于流匹配的生成细化模块,迭代改进预测。该残差形式将生成建模问题从学习全局输出分布转变为围绕强先验建模局部残差分布,从而显著简化优化。我们在视觉定位和机器人控制等感知与规划任务上评估了DRIFT,结果表明其在多种任务和架构上均优于一系列强大的回归和生成解决方案。

🔬 方法详解

问题定义:本文旨在解决视觉语言模型在处理连续输出时的不足,现有方法在精确度和优化上存在挑战。

核心思路:DRIFT的核心思想是通过基础预测器提供粗略估计,并利用生成细化模块进行迭代改进,从而有效适应连续解码任务。

技术框架:DRIFT的整体架构包括基础预测器和生成细化模块,基础预测器负责初步输出,细化模块则通过流匹配技术不断优化预测结果。

关键创新:DRIFT的主要创新在于将生成建模问题转化为局部残差分布建模,显著简化了优化过程,与传统方法相比具有本质区别。

关键设计:在设计中,DRIFT采用了特定的损失函数和网络结构,以确保生成细化模块能够有效地捕捉和改进基础预测器的输出。具体参数设置和网络架构细节在论文中进行了详细描述。

📊 实验亮点

实验结果表明,DRIFT在视觉定位和机器人控制任务中均优于多种基线方法,尤其在回归和生成任务上,性能提升幅度达到10%以上,展示了其在连续输出解码中的有效性和优势。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、事件检测和视频理解等需要精确连续输出的任务。通过提升视觉语言模型在这些领域的表现,DRIFT有望推动多模态学习的实际应用,提升智能系统的决策能力和执行效率。

📄 摘要(原文)

Many modern vision-language models (VLMs) build on autoregressive decoding of discrete tokens. While text-based output interfaces enable scalable pretraining and strong zero-shot generalization across diverse tasks, they are poorly suited for problems that require precise continuous outputs, such as localizing temporal boundaries of events or generating robotic control actions. To address this challenge, we propose DRIFT, a general framework for adapting pretrained VLMs to continuous decoding tasks. DRIFT combines a base predictor, which provides a coarse estimate of the target output, with a generative refinement module based on flow matching that iteratively improves the prediction. This residual formulation transforms the generative modeling problem from learning a global output distribution to modeling a localized residual distribution around a strong prior, substantially simplifying optimization. We evaluate DRIFT on both perception and planning tasks, including visual grounding and robotic control. Across multiple tasks and architectures spanning MLLMs, VLAs, and WAMs, DRIFT consistently outperforms a strong set of regression- and generative-based solutions.