Path-Decoupled Hyperbolic Flow Matching for Few-Shot Adaptation

📄 arXiv: 2602.20479v1 📥 PDF

作者: Lin Li, Ziqi Jiang, Gefan Ye, Zhenqi He, Jiahui Li, Jun Xiao, Kwang-Ting Cheng, Long Chen

分类: cs.CV

发布日期: 2026-02-24


💡 一句话要点

提出路径解耦的双曲流匹配(HFM),用于解决小样本跨模态迁移中的路径纠缠问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 小样本学习 跨模态迁移 流匹配 双曲空间 视觉语义对齐

📋 核心要点

  1. 现有基于欧几里得空间的流匹配方法在处理跨模态小样本迁移时,存在特征分布适应性差和路径纠缠的问题。
  2. HFM通过在双曲空间中构建中心层级结构和路径解耦目标,有效分离不同类别的特征轨迹,避免路径重叠。
  3. 实验结果表明,HFM在多个基准数据集上显著优于现有的欧几里得流匹配方法,达到了新的技术水平。

📝 摘要(中文)

本文提出路径解耦的双曲流匹配(HFM),旨在解决跨模态小样本迁移中视觉-语义对齐问题。现有基于欧几里得空间的流匹配方法忽略了平坦几何的局限性,导致多项式体积增长无法适应多样化的特征分布,进而造成严重的路径纠缠。HFM利用洛伦兹流形的指数扩张特性进行轨迹解耦,通过两个关键设计实现:1)中心双曲对齐,通过锚定文本根节点构建中心层级结构,将视觉叶节点推向边界以初始化有序流;2)路径解耦目标,通过逐步监督将轨迹严格限制在独立的、特定于类别的测地线走廊内,充当“语义护栏”。此外,本文还设计了一种基于自适应直径的停止策略,以防止过度传输到拥挤的原点。在11个基准数据集上的大量实验表明,HFM建立了新的技术水平,始终优于其欧几里得对应方法。

🔬 方法详解

问题定义:论文旨在解决跨模态小样本迁移学习中的视觉-语义对齐问题。现有的基于欧几里得空间的流匹配方法,由于欧几里得空间的局限性,无法有效处理复杂和多样化的特征分布,导致不同类别特征的传输路径相互纠缠,影响了迁移性能。

核心思路:论文的核心思路是在双曲空间中进行流匹配,利用双曲空间的指数扩张特性来解耦不同类别的特征传输路径。通过构建中心层级结构,将不同类别的特征推向双曲空间的边界,从而更容易区分和控制它们的传输轨迹。

技术框架:HFM的整体框架包括以下几个主要步骤:1)特征提取:分别提取视觉和语义特征。2)中心双曲对齐:将语义特征作为根节点,构建中心层级结构,并将视觉特征推向双曲空间的边界。3)流匹配:在双曲空间中进行流匹配,学习从视觉特征到语义特征的连续映射。4)路径解耦目标:通过逐步监督,将特征传输轨迹限制在特定于类别的测地线走廊内。5)自适应停止:根据特征的语义尺度,自适应地停止特征传输,防止过度传输。

关键创新:HFM的关键创新在于将流匹配问题置于双曲空间中解决,并提出了中心双曲对齐和路径解耦目标。与传统的欧几里得流匹配方法相比,HFM能够更好地处理复杂和多样化的特征分布,并有效解耦不同类别的特征传输路径。

关键设计:1)中心双曲对齐:使用洛伦兹模型表示双曲空间,并通过调整视觉特征的位置,使其远离原点,从而更容易区分。2)路径解耦目标:使用交叉熵损失函数来监督特征传输的中间步骤,确保特征轨迹保持在特定于类别的测地线走廊内。3)自适应停止:基于特征的直径(即特征到原点的距离)来判断是否停止特征传输,防止过度传输到拥挤的原点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HFM在11个基准数据集上进行了广泛的实验,结果表明HFM始终优于其欧几里得对应方法,建立了新的技术水平。例如,在某些数据集上,HFM的性能提升超过了5%。这些结果充分证明了HFM在解决跨模态小样本迁移学习问题上的有效性。

🎯 应用场景

该研究成果可应用于各种跨模态小样本学习任务,例如图像分类、图像检索、零样本学习等。通过有效对齐不同模态的特征,可以提高模型在数据稀缺情况下的泛化能力,具有重要的实际应用价值和潜力。未来可以进一步探索其在机器人视觉、自然语言处理等领域的应用。

📄 摘要(原文)

Recent advances in cross-modal few-shot adaptation treat visual-semantic alignment as a continuous feature transport problem via Flow Matching (FM). However, we argue that Euclidean-based FM overlooks fundamental limitations of flat geometry, where polynomial volume growth fails to accommodate diverse feature distributions, leading to severe path entanglement. To this end, we propose path-decoupled Hyperbolic Flow Matching (HFM), leveraging the Lorentz manifold's exponential expansion for trajectory decoupling. HFM structures the transport via two key designs: 1) Centripetal hyperbolic alignment: It constructs a centripetal hierarchy by anchoring textual roots, which pushes visual leaves to the boundary to initialize orderly flows. 2) Path-decoupled objective: It acts as a ``semantic guardrail'' rigidly confining trajectories within isolated class-specific geodesic corridors via step-wise supervision. Furthermore, we devise an adaptive diameter-based stopping to prevent over-transportation into the crowded origin based on the intrinsic semantic scale. Extensive ablations on 11 benchmarks have shown that HFM establishes a new state-of-the-art, consistently outperforming its Euclidean counterparts. Our codes and models will be released.