Domain-Specific Data Synthesis for LLMs via Minimal Sufficient Representation Learning
作者: Tong Ye, Hang Yu, Tengfei Ma, Xuhong Zhang, Jianguo Li, Peng Di, Peiyu Liu, Jianwei Yin, Wenhai Wang
分类: cs.AI
发布日期: 2026-05-28 (更新: 2026-05-29)
备注: Accepted by KDD 2026
💡 一句话要点
提出DOMINO框架以解决领域特定数据合成问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 领域特定数据合成 大型语言模型 提示调优 对比解耦 数据生成 机器学习 自然语言处理
📋 核心要点
- 现有的数据合成方法依赖于明确的领域描述,难以适应实际场景中领域难以表述的情况。
- 本文提出DOMINO框架,通过参考示例学习最小充分的领域表示,指导合成领域对齐的数据生成。
- 在隐式领域定义的编码基准上,DOMINO合成的数据微调后,Pass@1准确率提升了4.63%。
📝 摘要(中文)
大型语言模型在通用能力上取得了显著进展,但在特定领域的表现仍依赖于高质量的领域特定数据的获取。现有的数据合成方法主要依赖于明确的领域描述和精心设计的提示,限制了其在实际场景中的适用性。本文提出了一种新的领域特定数据合成方法,通过仅使用参考示例定义目标领域,提出了DOMINO框架,该框架通过学习最小充分的领域表示来指导合成数据的生成。实验结果表明,在隐式领域定义的编码基准上,使用DOMINO合成的数据进行微调,Pass@1准确率提高了4.63%。
🔬 方法详解
问题定义:本文解决的是领域特定数据合成的问题,现有方法依赖于明确的领域描述,限制了其在实际应用中的有效性。
核心思路:提出DOMINO框架,通过参考示例学习领域表示,采用归纳范式生成合成数据,避免了对自然语言描述的依赖。
技术框架:DOMINO框架包括两个主要模块:提示调优和对比解耦目标。提示调优用于优化生成过程,对比解耦目标则用于分离领域模式与样本特定噪声。
关键创新:DOMINO的创新在于通过最小充分表示学习扩展合成数据分布的支持,确保生成数据的多样性,与现有方法相比,减少了对领域描述的依赖。
关键设计:在设计中,采用了对比损失函数以增强领域特征的提取,同时优化了提示调优过程,以提高合成数据的质量和多样性。
🖼️ 关键图片
📊 实验亮点
在隐式领域定义的编码基准上,使用DOMINO合成的数据进行微调,Pass@1准确率提升了4.63%,相较于强大的指令调优基础模型,显示了其有效性和鲁棒性。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、代码生成和领域适应等。通过实现无需手动提示设计的领域特定数据合成,DOMINO框架能够在多种实际场景中提供高效的数据支持,推动相关领域的研究与应用发展。
📄 摘要(原文)
Large Language Models have demonstrated remarkable progress in general-purpose capabilities and can achieve strong performance in specific domains through fine-tuning on domain-specific data. However, acquiring high-quality data for target domains remains a significant challenge. Existing data synthesis approaches follow a deductive paradigm, heavily relying on explicit domain descriptions expressed in natural language and careful prompt engineering, limiting their applicability in real-world scenarios where domains are difficult to describe or formally articulate. In this work, we tackle the underexplored problem of domain-specific data synthesis through an inductive paradigm, where the target domain is defined only through a set of reference examples, particularly when domain characteristics are difficult to articulate in natural language. We propose a novel framework, DOMINO, that learns a minimal sufficient domain representation from reference samples and leverages it to guide the generation of domain-aligned synthetic data. DOMINO integrates prompt tuning with a contrastive disentanglement objective to separate domain-level patterns from sample-specific noise, mitigating overfitting while preserving core domain characteristics. Theoretically, we prove that DOMINO expands the support of the synthetic data distribution, ensuring greater diversity. Empirically, on challenging coding benchmarks where domain definitions are implicit, fine-tuning on data synthesized by DOMINO improves Pass@1 accuracy by up to 4.63\% over strong, instruction-tuned backbones, demonstrating its effectiveness and robustness. This work establishes a new paradigm for domain-specific data synthesis, enabling practical and scalable domain adaptation without manual prompt design or natural language domain specifications.