Direct Product Flow Matching: Decoupling Radial and Angular Dynamics for Few-Shot Adaptation

作者: Hongxu Chen, Yanghao Wang, Bowei Zhu, Hongxiang Li, Zhen Wang, Ziqi Jiang, Lin Li, Rui Liu, Long Chen

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-06

💡 一句话要点

提出直接乘积流匹配(DP-FM)，解耦跨模态对齐的径向和角度动态，提升少样本自适应性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion)

关键词: 流匹配 少样本学习 跨模态对齐 视觉语言模型 几何深度学习

📋 核心要点

现有流匹配方法在跨模态对齐中存在角度动态失真、径向动态忽略和上下文信息丢失等问题，限制了少样本自适应性能。
论文提出翘曲乘积流匹配（WP-FM）框架，并导出直接乘积流匹配（DP-FM），解耦径向和角度动态，并引入无分类器指导。
DP-FM在11个基准测试中取得了新的state-of-the-art，验证了其在多步少样本自适应方面的有效性。

📝 摘要（中文）

本文提出了一种新的流匹配（FM）方法，用于改进视觉-语言模型的少样本自适应。现有FM方法在预训练的跨模态特征上存在不兼容的几何先验，导致自适应性能欠佳。本文从极坐标分解（即径向和角度子流形）的角度分析了这些方法，揭示了三个被忽略的局限性：1）角度动态失真：径向-角度耦合导致角度子流形上的速度不均匀，增加了回归训练的难度和截断误差；2）径向动态忽略：特征归一化丢弃了模态置信度，无法区分分布内和分布外数据，放弃了关键的径向动态；3）上下文无关的无条件流：预训练跨模态特征提取过程中丢失的数据集特定信息无法恢复。为了解决这些问题，本文提出了翘曲乘积流匹配（WP-FM），一个统一的黎曼框架，将对齐问题重新定义在翘曲乘积流形上。在此框架下，通过引入恒定翘曲度量导出了直接乘积流匹配（DP-FM），它产生了解耦的圆柱流形（即直接乘积流形）。DP-FM实现了独立的径向演化和恒定速度的角度测地线传输，有效消除了角度动态失真，同时保持了径向一致性。同时，通过将流条件化于预训练VLM的隐藏状态，引入了无分类器指导，以注入缺失的数据集特定信息。在11个基准测试上的大量结果表明，DP-FM在多步少样本自适应方面达到了新的最先进水平。

🔬 方法详解

问题定义：现有流匹配方法在视觉-语言模型的少样本自适应中，由于预训练跨模态特征的几何先验不兼容，导致性能受限。具体表现为角度动态失真（角度子流形速度不均匀）、径向动态忽略（丢失模态置信度）以及上下文无关的无条件流（丢失数据集特定信息）。这些问题使得模型难以有效地进行跨模态对齐。

核心思路：论文的核心思路是将跨模态对齐问题重新定义在翘曲乘积流形上，通过解耦径向和角度动态，并引入上下文信息，来解决现有方法的局限性。具体而言，通过设计直接乘积流匹配（DP-FM），实现独立的径向演化和恒定速度的角度测地线传输，从而消除角度动态失真，同时保持径向一致性。此外，通过无分类器指导，将数据集特定信息注入到流中。

技术框架：DP-FM的整体框架包括以下几个主要步骤：1) 使用预训练的视觉-语言模型提取跨模态特征；2) 将特征映射到翘曲乘积流形上；3) 使用直接乘积流匹配（DP-FM）学习跨模态特征之间的连续流；4) 利用学习到的流进行少样本自适应。其中，DP-FM是核心模块，负责解耦径向和角度动态，并保持径向一致性。

关键创新：论文最重要的技术创新点在于提出了直接乘积流匹配（DP-FM），它通过引入恒定翘曲度量，将原始流形解耦为直接乘积流形，从而实现了独立的径向演化和恒定速度的角度测地线传输。与现有方法相比，DP-FM能够更有效地消除角度动态失真，并保持径向一致性。此外，引入无分类器指导也是一个重要的创新点，它能够将数据集特定信息注入到流中，从而提高自适应性能。

关键设计：DP-FM的关键设计包括：1) 使用恒定翘曲度量来解耦径向和角度动态；2) 设计损失函数，鼓励独立的径向演化和恒定速度的角度测地线传输；3) 使用无分类器指导，将预训练VLM的隐藏状态作为条件，注入数据集特定信息。具体的参数设置和网络结构细节在论文中有详细描述，例如，如何选择合适的翘曲函数，如何设计损失函数的权重等。

🖼️ 关键图片

📊 实验亮点

DP-FM在11个基准测试中取得了显著的性能提升，达到了新的state-of-the-art。具体而言，DP-FM在多步少样本自适应任务中，相较于现有流匹配方法，性能提升显著，验证了解耦径向和角度动态以及引入上下文信息的有效性。实验结果表明，DP-FM能够更有效地进行跨模态对齐，并提高少样本自适应的性能。

🎯 应用场景

该研究成果可应用于各种需要跨模态对齐和少样本自适应的场景，例如图像描述生成、视觉问答、跨模态检索等。其潜在价值在于能够提高这些任务在数据稀缺情况下的性能，降低对大量标注数据的依赖，从而加速相关技术的落地和应用。未来，该方法有望扩展到更多模态和更复杂的任务中。

📄 摘要（原文）

Recent flow matching (FM) methods improve the few-shot adaptation of vision-language models, by modeling cross-modal alignment as a continuous multi-step flow. In this paper, we argue that existing FM methods are inherently constrained by incompatible geometric priors on pre-trained cross-modal features, resulting in suboptimal adaptation performance. We first analyze these methods from a polar decomposition perspective (i.e., radial and angular sub-manifolds). Under this new geometric view, we identify three overlooked limitations in them: 1) Angular dynamics distortion: The radial-angular coupling induces non-uniform speed on the angular sub-manifold, leading to regression training difficulty and extra truncation errors. 2) Radial dynamics neglect: Feature normalization discards modality confidence, failing to distinguish out-of-distribution and in-distribution data, and abandoning crucial radial dynamics. 3) Context-agnostic unconditional flow: Dataset-specific information loss during pre-trained cross-modal feature extraction remains unrecovered. To resolve these issues, we propose warped product flow matching (WP-FM), a unified Riemannian framework that reformulates alignment on a warped product manifold. Within this framework, we derive direct product flow matching (DP-FM) by introducing a constant-warping metric, which yields a decoupled cylindrical manifold (i.e., direct product manifold). DP-FM enables independent radial evolution and constant-speed angular geodesic transport, effectively eliminating angular dynamics distortion while preserving radial consistency. Meanwhile, we incorporate classifier-free guidance by conditioning the flow on the pre-trained VLMs' hidden states to inject missing dataset-specific information. Extensive results across 11 benchmarks have demonstrated that DP-FM achieves a new state-of-the-art for multi-step few-shot adaptation.

Direct Product Flow Matching: Decoupling Radial and Angular Dynamics for Few-Shot Adaptation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理