TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning
作者: Sheng Wang, Pengan Chen, Jingqi Zhou, Qintong Li, Jingwei Dong, Jiahui Gao, Boyang Xue, Jiyue Jiang, Lingpeng Kong, Chuan Wu
分类: cs.LG, cs.AI
发布日期: 2025-03-21 (更新: 2025-06-23)
🔗 代码/项目: GITHUB
💡 一句话要点
TreeSynth:通过树引导的子空间划分从零合成多样化数据
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据合成 数据增强 大型语言模型 子空间划分 决策树
📋 核心要点
- 现有数据合成方法受限于种子数据、模型偏差和低变化提示,导致数据多样性不足,分布存在偏差。
- TreeSynth通过构建空间划分树,递归划分数据空间为多个原子子空间,在子空间内合成样本,保证数据多样性和全面性。
- 实验表明,TreeSynth在数据多样性、模型性能和可扩展性方面优于现有方法,平均性能提升10%,并能有效平衡现有数据集。
📝 摘要(中文)
模型定制需要高质量和多样化的数据集,但获取此类数据仍然耗时且费力。尽管大型语言模型(LLMs)在数据合成方面具有巨大潜力,但当前的方法受到有限的种子数据、模型偏差和低变化提示的约束,导致随着数据规模的增加,多样性有限且分布存在偏差。为了解决这个挑战,我们引入了TREESYNTH,一种受决策树启发的、基于树引导的子空间数据合成方法。它构建一个空间划分树,以递归方式将特定于任务的完整数据空间(即根节点)划分为多个具有互斥且详尽属性的原子子空间(即叶节点),以确保在每个原子子空间内合成样本之前的独特性和全面性。这种全局划分和合成方法最终将子空间样本收集到一个全面的数据集中,有效地避免了重复和空间崩溃,从而确保了大规模数据合成的多样性。此外,空间划分树能够将样本分配到原子子空间中,从而可以重新平衡现有数据集,以实现更平衡和全面的分布。经验表明,跨各种基准的广泛实验一致地证明了TREESYNTH相对于人工制作的数据集和同类数据合成方法而言,具有卓越的数据多样性、模型性能和强大的可扩展性,平均性能提升达到10%。此外,TREESYNTH平衡数据集的一致改进突出了其在重新分配现有数据集以实现更全面覆盖以及由此产生的性能增强方面的有效应用。
🔬 方法详解
问题定义:论文旨在解决数据合成中数据多样性不足和分布偏差的问题。现有方法依赖有限的种子数据和低变化的提示,导致合成的数据集缺乏多样性,并且容易受到模型偏差的影响,无法满足模型定制的需求。
核心思路:论文的核心思路是借鉴决策树的思想,通过构建空间划分树,将整个数据空间递归地划分为多个互斥且详尽的原子子空间。然后在每个原子子空间内独立地合成数据,从而保证合成数据的多样性和全面性。这种“分而治之”的策略可以有效地避免重复和空间崩溃,提高数据合成的效率和质量。
技术框架:TreeSynth的整体框架包括以下几个主要阶段:1) 空间划分树构建:根据任务的特点,定义合适的属性,构建空间划分树。树的每个节点代表一个数据子空间,叶节点代表原子子空间。2) 样本分配:将现有的数据样本分配到对应的原子子空间中。3) 子空间数据合成:在每个原子子空间内,利用大型语言模型(LLMs)生成新的数据样本。4) 数据集构建:将所有原子子空间中的数据样本合并,构建最终的合成数据集。
关键创新:TreeSynth的关键创新在于其树引导的子空间划分策略。与传统的全局数据合成方法相比,TreeSynth能够更好地控制数据合成的过程,保证合成数据的多样性和全面性。通过将数据空间划分为多个原子子空间,TreeSynth可以有效地避免重复和空间崩溃,提高数据合成的效率和质量。此外,TreeSynth还可以用于重新平衡现有的数据集,使其分布更加全面。
关键设计:空间划分树的构建是TreeSynth的关键设计之一。论文中,作者根据任务的特点,定义了合适的属性,并采用递归的方式构建空间划分树。在子空间数据合成阶段,作者利用大型语言模型(LLMs)生成新的数据样本。为了保证合成数据的质量,作者采用了多种技术,例如,使用不同的提示词、调整LLMs的参数等。此外,作者还设计了一种样本分配策略,将现有的数据样本分配到对应的原子子空间中,从而更好地利用现有的数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TreeSynth在多个基准数据集上都取得了显著的性能提升,平均性能提升达到10%。与人工制作的数据集和同类数据合成方法相比,TreeSynth具有更强的数据多样性和更好的模型性能。此外,TreeSynth还可以用于重新平衡现有的数据集,使其分布更加全面,从而进一步提高模型的性能。
🎯 应用场景
TreeSynth可应用于各种需要高质量和多样化数据集的场景,例如模型定制、数据增强、领域泛化等。该方法能够有效提高数据合成的效率和质量,降低数据获取的成本,并促进人工智能技术在各个领域的应用。例如,在自动驾驶领域,可以使用TreeSynth合成各种复杂的交通场景,提高自动驾驶系统的鲁棒性和安全性。
📄 摘要(原文)
Model customization necessitates high-quality and diverse datasets, but acquiring such data remains time-consuming and labor-intensive. Despite the great potential of large language models (LLMs) for data synthesis, current approaches are constrained by limited seed data, model biases, and low-variation prompts, resulting in limited diversity and biased distributions with the increase of data scales. To tackle this challenge, we introduce TREESYNTH, a tree-guided subspace-based data synthesis approach inspired by decision trees. It constructs a spatial partitioning tree to recursively divide a task-specific full data space (i.e., root node) into numerous atomic subspaces (i.e., leaf nodes) with mutually exclusive and exhaustive attributes to ensure both distinctiveness and comprehensiveness before synthesizing samples within each atomic subspace. This globally dividing-and-synthesizing method finally collects subspace samples into a comprehensive dataset, effectively circumventing repetition and space collapse to ensure the diversity of large-scale data synthesis. Furthermore, the spatial partitioning tree enables sample allocation into atomic subspaces, allowing the rebalancing of existing datasets for more balanced and comprehensive distributions. Empirically, extensive experiments across diverse benchmarks consistently demonstrate the superior data diversity, model performance, and robust scalability of TREESYNTH compared to both human-crafted datasets and peer data synthesis methods, with an average performance gain reaching 10%. Besides, the consistent improvements of TREESYNTH-balanced datasets highlight its efficacious application to redistribute existing datasets for more comprehensive coverage and the induced performance enhancement. The code is available at https://github.com/cpa2001/TreeSynth.