CIEGAD: Cluster-Conditioned Interpolative and Extrapolative Framework for Geometry-Aware and Domain-Aligned Data Augmentation

📄 arXiv: 2512.10178v1 📥 PDF

作者: Keito Inoshita, Xiaokang Zhou, Akira Kawai, Katsutoshi Yada

分类: cs.LG, cs.CL

发布日期: 2025-12-11


💡 一句话要点

CIEGAD:一种聚类条件下的几何感知和域对齐数据增强框架,用于解决数据稀疏和类别不平衡问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据增强 几何感知 域对齐 聚类条件 长尾分类

📋 核心要点

  1. 现有数据增强方法难以兼顾生成数据的方向控制、域对齐和质量控制,导致模型在数据稀疏和类别不平衡区域表现不佳。
  2. CIEGAD通过聚类条件构建域轮廓,结合插值和外推合成,并利用几何约束过滤和LLM进行质量控制,实现高质量的数据增强。
  3. 实验表明,CIEGAD能有效扩展数据分布,提高模型在长尾和多类分类任务中的F1和召回率,验证了其有效性。

📝 摘要(中文)

在实际深度学习部署中,数据稀缺和标签分布不平衡常常导致真实世界数据分布中出现语义未覆盖区域,阻碍模型训练,并在类别边界附近造成错误分类,以及在外围区域产生不稳定行为。尽管最近的大型语言模型(LLMs)在数据增强方面显示出潜力,但尚未完全建立一个能够同时实现生成方向控制、域对齐和质量控制的集成框架。为了应对这些挑战,我们提出了一种聚类条件下的几何感知和域对齐数据增强框架(CIEGAD),该框架系统地补充了分布内和分布外的语义未覆盖区域。CIEGAD通过聚类条件构建域轮廓,通过整合类别频率和几何指标的分层频率-几何分配来分配生成,并通过插值和外推合成的共存来精细控制生成方向。它进一步执行质量控制,通过几何约束过滤结合LLM-as-a-Judge机制。在多个分类任务上的实验表明,CIEGAD有效地扩展了真实世界数据分布的外围,同时保持了生成数据和真实世界数据之间的高度对齐以及语义多样性。特别是,对于长尾和多类分类任务,CIEGAD始终提高F1和召回率,验证了分布一致性、多样性和质量的三重和谐。这些结果表明,CIEGAD作为一个面向实践的数据增强框架,可以在保持与真实世界数据对齐的同时,补充代表性不足的区域。

🔬 方法详解

问题定义:论文旨在解决深度学习模型在数据稀缺和类别不平衡场景下的泛化能力问题。现有数据增强方法通常难以保证生成数据的质量、与真实数据的域对齐以及对特定区域的有效补充,导致模型在类别边界和数据分布外围区域表现不佳。

核心思路:论文的核心思路是利用聚类信息构建域轮廓,并结合插值和外推方法生成数据,从而有针对性地补充数据分布中的未覆盖区域。通过几何约束和大型语言模型进行质量控制,保证生成数据的质量和与真实数据的对齐。

技术框架:CIEGAD框架包含以下几个主要模块:1) 聚类条件构建域轮廓:通过聚类分析真实数据,构建不同类别的域轮廓。2) 分层频率-几何分配:根据类别频率和几何指标,确定生成数据的数量和位置。3) 插值和外推合成:利用插值和外推方法,在域轮廓内生成新的数据样本,实现对数据分布的补充。4) 几何约束过滤:利用几何约束条件,过滤掉质量较差的生成数据。5) LLM-as-a-Judge质量控制:使用大型语言模型作为裁判,进一步评估生成数据的质量,并进行筛选。

关键创新:CIEGAD的关键创新在于:1) 聚类条件下的域轮廓构建:能够更准确地描述数据的分布特征。2) 插值和外推合成的结合:能够同时补充分布内和分布外的未覆盖区域。3) 几何约束和LLM的联合质量控制:能够有效保证生成数据的质量和与真实数据的对齐。

关键设计:论文中一些关键的设计包括:1) 聚类算法的选择:根据具体任务选择合适的聚类算法,如K-means或GMM。2) 几何指标的定义:根据数据的几何特征,设计合适的几何指标,如距离、密度等。3) 插值和外推的比例:根据具体任务调整插值和外推的比例,以平衡生成数据的多样性和真实性。4) LLM的选择和Prompt设计:选择合适的LLM,并设计有效的Prompt,以评估生成数据的质量。

📊 实验亮点

实验结果表明,CIEGAD在多个分类任务上均取得了显著的性能提升。特别是在长尾和多类分类任务中,CIEGAD consistently提高了F1和召回率。例如,在某个长尾分类任务中,CIEGAD相比于基线方法,F1提高了5个百分点,召回率提高了8个百分点,验证了其在补充代表性不足区域方面的有效性。

🎯 应用场景

CIEGAD可应用于各种数据稀缺和类别不平衡的深度学习任务,如医疗图像分析、自动驾驶、故障诊断等。该框架能够有效提高模型在这些场景下的泛化能力和鲁棒性,降低误判率,具有重要的实际应用价值。未来,CIEGAD可以进一步扩展到其他类型的数据,如文本、语音等,并与其他数据增强技术相结合,以实现更好的性能。

📄 摘要(原文)

In practical deep learning deployment, the scarcity of data and the imbalance of label distributions often lead to semantically uncovered regions within the real-world data distribution, hindering model training and causing misclassification near class boundaries as well as unstable behaviors in peripheral areas. Although recent large language models (LLMs) show promise for data augmentation, an integrated framework that simultaneously achieves directional control of generation, domain alignment, and quality control has not yet been fully established. To address these challenges, we propose a Cluster-conditioned Interpolative and Extrapolative framework for Geometry-Aware and Domain-aligned data augmentation (CIEGAD), which systematically complements both in-distribution and out-of-distribution semantically uncovered regions. CIEGAD constructs domain profiles through cluster conditioning, allocates generation with a hierarchical frequency-geometric allocation integrating class frequency and geometric indicators, and finely controls generation directions via the coexistence of interpolative and extrapolative synthesis. It further performs quality control through geometry-constrained filtering combined with an LLM-as-a-Judge mechanism. Experiments on multiple classification tasks demonstrate that CIEGAD effectively extends the periphery of real-world data distributions while maintaining high alignment between generated and real-world data as well as semantic diversity. In particular, for long-tailed and multi-class classification tasks, CIEGAD consistently improves F1 and recall, validating the triple harmony of distributional consistency, diversity, and quality. These results indicate that CIEGAD serves as a practically oriented data augmentation framework that complements underrepresented regions while preserving alignment with real-world data.