Direct Product Flow Matching: Decoupling Radial and Angular Dynamics for Few-Shot Adaptation
作者: Hongxu Chen, Yanghao Wang, Bowei Zhu, Hongxiang Li, Zhen Wang, Ziqi Jiang, Lin Li, Rui Liu, Long Chen
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-05-06
💡 一句话要点
提出直接乘积流匹配(DP-FM),解耦跨模态对齐的径向和角度动态,提升少样本自适应性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)
关键词: 流匹配 少样本学习 跨模态对齐 视觉语言模型 几何深度学习
📋 核心要点
- 现有流匹配方法在跨模态对齐中存在角度动态失真、径向动态忽略和上下文信息丢失等问题,限制了少样本自适应性能。
- 论文提出翘曲乘积流匹配(WP-FM)框架,并导出直接乘积流匹配(DP-FM),解耦径向和角度动态,并引入无分类器指导。
- DP-FM在11个基准测试中取得了新的state-of-the-art,验证了其在多步少样本自适应方面的有效性。
📝 摘要(中文)
本文提出了一种新的流匹配(FM)方法,用于改进视觉-语言模型的少样本自适应。现有FM方法在预训练的跨模态特征上存在不兼容的几何先验,导致自适应性能欠佳。本文从极坐标分解(即径向和角度子流形)的角度分析了这些方法,揭示了三个被忽略的局限性:1)角度动态失真:径向-角度耦合导致角度子流形上的速度不均匀,增加了回归训练的难度和截断误差;2)径向动态忽略:特征归一化丢弃了模态置信度,无法区分分布内和分布外数据,放弃了关键的径向动态;3)上下文无关的无条件流:预训练跨模态特征提取过程中丢失的数据集特定信息无法恢复。为了解决这些问题,本文提出了翘曲乘积流匹配(WP-FM),一个统一的黎曼框架,将对齐问题重新定义在翘曲乘积流形上。在此框架下,通过引入恒定翘曲度量导出了直接乘积流匹配(DP-FM),它产生了解耦的圆柱流形(即直接乘积流形)。DP-FM实现了独立的径向演化和恒定速度的角度测地线传输,有效消除了角度动态失真,同时保持了径向一致性。同时,通过将流条件化于预训练VLM的隐藏状态,引入了无分类器指导,以注入缺失的数据集特定信息。在11个基准测试上的大量结果表明,DP-FM在多步少样本自适应方面达到了新的最先进水平。
🔬 方法详解
问题定义:现有流匹配方法在视觉-语言模型的少样本自适应中,由于预训练跨模态特征的几何先验不兼容,导致性能受限。具体表现为角度动态失真(角度子流形速度不均匀)、径向动态忽略(丢失模态置信度)以及上下文无关的无条件流(丢失数据集特定信息)。这些问题使得模型难以有效地进行跨模态对齐。
核心思路:论文的核心思路是将跨模态对齐问题重新定义在翘曲乘积流形上,通过解耦径向和角度动态,并引入上下文信息,来解决现有方法的局限性。具体而言,通过设计直接乘积流匹配(DP-FM),实现独立的径向演化和恒定速度的角度测地线传输,从而消除角度动态失真,同时保持径向一致性。此外,通过无分类器指导,将数据集特定信息注入到流中。
技术框架:DP-FM的整体框架包括以下几个主要步骤:1) 使用预训练的视觉-语言模型提取跨模态特征;2) 将特征映射到翘曲乘积流形上;3) 使用直接乘积流匹配(DP-FM)学习跨模态特征之间的连续流;4) 利用学习到的流进行少样本自适应。其中,DP-FM是核心模块,负责解耦径向和角度动态,并保持径向一致性。
关键创新:论文最重要的技术创新点在于提出了直接乘积流匹配(DP-FM),它通过引入恒定翘曲度量,将原始流形解耦为直接乘积流形,从而实现了独立的径向演化和恒定速度的角度测地线传输。与现有方法相比,DP-FM能够更有效地消除角度动态失真,并保持径向一致性。此外,引入无分类器指导也是一个重要的创新点,它能够将数据集特定信息注入到流中,从而提高自适应性能。
关键设计:DP-FM的关键设计包括:1) 使用恒定翘曲度量来解耦径向和角度动态;2) 设计损失函数,鼓励独立的径向演化和恒定速度的角度测地线传输;3) 使用无分类器指导,将预训练VLM的隐藏状态作为条件,注入数据集特定信息。具体的参数设置和网络结构细节在论文中有详细描述,例如,如何选择合适的翘曲函数,如何设计损失函数的权重等。
🖼️ 关键图片
📊 实验亮点
DP-FM在11个基准测试中取得了显著的性能提升,达到了新的state-of-the-art。具体而言,DP-FM在多步少样本自适应任务中,相较于现有流匹配方法,性能提升显著,验证了解耦径向和角度动态以及引入上下文信息的有效性。实验结果表明,DP-FM能够更有效地进行跨模态对齐,并提高少样本自适应的性能。
🎯 应用场景
该研究成果可应用于各种需要跨模态对齐和少样本自适应的场景,例如图像描述生成、视觉问答、跨模态检索等。其潜在价值在于能够提高这些任务在数据稀缺情况下的性能,降低对大量标注数据的依赖,从而加速相关技术的落地和应用。未来,该方法有望扩展到更多模态和更复杂的任务中。
📄 摘要(原文)
Recent flow matching (FM) methods improve the few-shot adaptation of vision-language models, by modeling cross-modal alignment as a continuous multi-step flow. In this paper, we argue that existing FM methods are inherently constrained by incompatible geometric priors on pre-trained cross-modal features, resulting in suboptimal adaptation performance. We first analyze these methods from a polar decomposition perspective (i.e., radial and angular sub-manifolds). Under this new geometric view, we identify three overlooked limitations in them: 1) Angular dynamics distortion: The radial-angular coupling induces non-uniform speed on the angular sub-manifold, leading to regression training difficulty and extra truncation errors. 2) Radial dynamics neglect: Feature normalization discards modality confidence, failing to distinguish out-of-distribution and in-distribution data, and abandoning crucial radial dynamics. 3) Context-agnostic unconditional flow: Dataset-specific information loss during pre-trained cross-modal feature extraction remains unrecovered. To resolve these issues, we propose warped product flow matching (WP-FM), a unified Riemannian framework that reformulates alignment on a warped product manifold. Within this framework, we derive direct product flow matching (DP-FM) by introducing a constant-warping metric, which yields a decoupled cylindrical manifold (i.e., direct product manifold). DP-FM enables independent radial evolution and constant-speed angular geodesic transport, effectively eliminating angular dynamics distortion while preserving radial consistency. Meanwhile, we incorporate classifier-free guidance by conditioning the flow on the pre-trained VLMs' hidden states to inject missing dataset-specific information. Extensive results across 11 benchmarks have demonstrated that DP-FM achieves a new state-of-the-art for multi-step few-shot adaptation.