Dynamic Context Evolution for Scalable Synthetic Data Generation

📄 arXiv: 2604.07147v1 📥 PDF

作者: Ryan Lingo, Rajeev Chhajer

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-08


💡 一句话要点

提出动态上下文演化(DCE)框架,解决大规模合成数据生成中的跨批次模式崩溃问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 合成数据生成 语言模型 模式崩溃 多样性 动态上下文演化 语义记忆 自适应提示

📋 核心要点

  1. 现有方法在生成大规模合成数据时,存在跨批次模式崩溃问题,导致输出多样性不足。
  2. DCE框架通过动词化尾部采样、语义记忆和自适应提示演化三个机制,维持生成内容的多样性。
  3. 实验表明,DCE显著降低了模式崩溃率,并生成了更丰富、更可靠的概念结构,且成本较低。

📝 摘要(中文)

大规模语言模型在跨多个批次独立提示时,会产生重复性输出,这种现象被称为跨批次模式崩溃,即在没有访问先前生成结果的情况下重复提示语言模型时,输出多样性逐渐丧失。本文提出了动态上下文演化(DCE)框架,包含三个机制:(1) 动词化尾部采样(模型评估每个想法的明显程度,并丢弃明显的想法),通过模型自我评估过滤高概率候选者;(2) 语义记忆,维护持久嵌入索引以拒绝跨批次的近似重复项;(3) 自适应提示演化,使用记忆状态和轮换多样性策略,在每个批次中重建生成提示。在可持续包装概念、教育考试题和创意写作提示三个领域以及gpt-5-mini和claude-haiku-4-5两个模型家族的实验中,DCE实现了0.0 +/- 0.0%的崩溃率,而朴素提示为5.6 +/- 2.0%,同时每个种子产生17-18个HDBSCAN聚类,而朴素方法的不稳定范围为2-17,表明DCE具有更可靠的丰富概念结构。这些结果通过独立的嵌入模型(all-MiniLM-L6-v2)验证,并且在VTS阈值tau和去重阈值delta的敏感度扫描中保持有效。去重和提示演化单独使用效果不佳,但联合使用有效,使用标准API调用,每1,000个候选者的成本约为0.50美元,无需微调或自定义架构。

🔬 方法详解

问题定义:论文旨在解决大规模语言模型在生成合成数据时出现的“跨批次模式崩溃”问题。当语言模型被重复提示生成数据,且每次生成之间没有记忆时,会倾向于产生相似或重复的输出,导致数据多样性降低。现有的去重和种子轮换等方法是临时的,缺乏系统性。

核心思路:DCE的核心思路是通过动态地演化生成上下文,来维持语言模型输出的多样性。具体来说,它通过三个机制:(1) 过滤掉模型认为过于明显的想法;(2) 记忆并排除重复的内容;(3) 动态调整生成提示,来避免模型陷入重复的模式。

技术框架:DCE框架包含三个主要模块: 1. 动词化尾部采样 (Verbalized Tail Sampling, VTS):模型对每个生成候选的“明显程度”进行自我评估,并丢弃过于明显的候选。 2. 语义记忆 (Semantic Memory):维护一个持久的嵌入索引,用于检测并拒绝跨批次的近似重复项。 3. 自适应提示演化 (Adaptive Prompt Evolution):每个批次都基于记忆状态和多样性策略,重建生成提示。

关键创新:DCE的关键创新在于将模型自我评估、语义记忆和动态提示演化结合起来,形成一个闭环的反馈系统。这种系统能够有效地抑制模式崩溃,并维持生成内容的多样性,而无需对模型进行微调或使用自定义架构。

关键设计: * VTS阈值τ:用于控制“明显程度”的过滤强度。 * 去重阈值δ:用于控制语义记忆中重复项的判断标准。 * 多样性策略:在自适应提示演化中,使用不同的策略来生成新的提示,例如基于记忆状态或随机探索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DCE框架在三个领域(可持续包装概念、教育考试题和创意写作提示)和两个模型家族(gpt-5-mini和claude-haiku-4-5)上,显著降低了跨批次模式崩溃率。DCE的崩溃率为0.0 +/- 0.0%,而朴素提示为5.6 +/- 2.0%。此外,DCE还能够生成更丰富、更可靠的概念结构,每个种子产生17-18个HDBSCAN聚类,而朴素方法的不稳定范围为2-17。

🎯 应用场景

DCE框架可应用于各种需要生成大规模合成数据的场景,例如:生成用于训练机器学习模型的合成数据、生成创意文本内容、生成教育材料等。该方法能够有效提高生成数据的多样性和质量,降低数据收集和标注的成本,并促进相关领域的发展。

📄 摘要(原文)

Large language models produce repetitive output when prompted independently across many batches, a phenomenon we term cross-batch mode collapse: the progressive loss of output diversity when a language model is prompted repeatedly without access to its prior generations. Practitioners have long mitigated this with ad hoc deduplication and seed rotation, but no principled framework exists. We introduce Dynamic Context Evolution (DCE), comprising three mechanisms: (1) verbalized tail sampling (the model labels each idea with a guess about how obvious it is, and obvious ideas are discarded), which filters high-probability candidates via model self-assessment; (2) semantic memory, which maintains a persistent embedding index to reject near-duplicates across batches; and (3) adaptive prompt evolution, which reconstructs the generation prompt each batch using memory state and rotating diversity strategies. In experiments across three domains (sustainable packaging concepts, educational exam questions, and creative writing prompts) and two model families (gpt-5-mini and claude-haiku-4-5), a component ablation across 2-3 random seeds per method shows that DCE achieves 0.0 +/- 0.0% collapse versus 5.6 +/- 2.0% for naive prompting, while producing 17-18 HDBSCAN clusters per seed versus naive's volatile 2-17, indicating reliably richer conceptual structure. These results are validated with an independent embedding model (all-MiniLM-L6-v2) and hold across sensitivity sweeps of the VTS threshold tau and dedup threshold delta. Deduplication and prompt evolution are individually insufficient but jointly effective, at approximately $0.50 per 1,000 candidates using only standard API calls, with no fine-tuning or custom architectures required.