PILOT: Steering Synthetic Data Generation with Psychological & Linguistic Output Targeting
作者: Caitlin Cisar, Emily Sheffield, Joshua Drake, Alden Harrell, Subramanian Chidambaram, Nikita Nangia, Vinayak Arannil, Alex Williams
分类: cs.CL, cs.AI
发布日期: 2025-09-18
💡 一句话要点
PILOT:利用心理语言学输出目标引导合成数据生成,提升控制精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 合成数据生成 心理语言学 大型语言模型 用户角色 可控生成
📋 核心要点
- 现有生成式AI依赖自然语言描述用户角色,模型易产生不必要的属性推断,导致输出控制精度不足。
- PILOT框架将自然语言角色描述转化为结构化的心理语言学配置文件,从而引导LLM生成更可控的合成数据。
- 实验表明,基于模式的引导方法能有效减少人工重复,提升输出一致性,并在多样性和一致性间取得平衡。
📝 摘要(中文)
生成式AI应用通常利用用户角色作为合成数据生成的引导机制,但依赖自然语言表示迫使模型对要强调的属性进行不必要的推断,限制了对输出的精确控制。我们引入了PILOT(心理和语言输出目标),这是一个两阶段框架,用于利用结构化的心理语言学配置文件来引导大型语言模型。在第一阶段,PILOT将自然语言角色描述转换为多维配置文件,其中包含跨语言和心理维度的标准化分数。在第二阶段,这些配置文件沿着可测量的变化轴引导生成。我们使用三种最先进的LLM(Mistral Large 2、Deepseek-R1、LLaMA 3.3 70B)在三种条件下评估PILOT:自然语言角色引导(NPS)、基于模式的引导(SBS)和混合角色-模式引导(HPS)。结果表明,基于模式的方法显著减少了人工角色重复,同时提高了输出一致性,轮廓分数从0.098增加到0.237,主题纯度从0.773增加到0.957。我们的分析揭示了一个根本的权衡:SBS产生更简洁的输出,具有更高的话题一致性,而NPS提供更大的词汇多样性,但降低了可预测性。HPS实现了这些极端之间的平衡,在保持输出多样性的同时保持了结构一致性。专家语言评估证实,PILOT在所有条件下都保持了高质量的响应,不同引导方法之间没有统计学上的显著差异。
🔬 方法详解
问题定义:现有生成式AI应用在合成数据生成时,依赖自然语言描述的用户角色作为引导,这种方式存在不足。模型需要从自然语言描述中推断出哪些属性应该被强调,这导致了对输出的控制不够精确,并且容易产生不必要的偏差。此外,过度依赖自然语言可能导致生成的内容重复且缺乏新意。
核心思路:PILOT的核心思路是将自然语言的角色描述转化为结构化的心理语言学配置文件。通过将角色分解为多个可量化的心理和语言维度,并为每个维度分配标准化分数,PILOT能够更精确地控制生成过程,避免模型进行不必要的推断。这种方法旨在提高生成数据的质量、一致性和可控性。
技术框架:PILOT框架包含两个主要阶段。第一阶段是“配置文件生成”,将自然语言角色描述输入到模型中,模型输出一个多维的心理语言学配置文件,其中包含各个维度上的标准化分数。第二阶段是“引导生成”,利用生成的配置文件来引导大型语言模型生成合成数据。框架支持三种引导模式:自然语言角色引导(NPS)、基于模式的引导(SBS)和混合角色-模式引导(HPS)。
关键创新:PILOT的关键创新在于使用结构化的心理语言学配置文件来代替传统的自然语言角色描述,从而实现对生成过程的更精确控制。这种方法避免了模型进行不必要的推断,减少了偏差,并提高了生成数据的质量和一致性。此外,PILOT框架具有灵活性,支持多种引导模式,可以根据不同的需求选择合适的模式。
关键设计:PILOT框架的关键设计包括心理语言学维度的选择和标准化分数的计算方法。论文中使用了预定义的心理和语言维度,例如情感、人格特征、语言风格等。标准化分数通过将原始分数映射到0到1的范围内来确保不同维度之间的可比性。在引导生成阶段,配置文件中的分数被用作模型的输入,以调整生成过程,例如通过调整注意力权重或修改损失函数。
📊 实验亮点
实验结果表明,基于模式的引导(SBS)显著减少了人工角色重复,同时提高了输出一致性,轮廓分数从0.098增加到0.237,主题纯度从0.773增加到0.957。混合角色-模式引导(HPS)在保持输出多样性的同时保持了结构一致性。专家语言评估证实,PILOT在所有条件下都保持了高质量的响应,不同引导方法之间没有统计学上的显著差异。
🎯 应用场景
PILOT框架可应用于各种需要生成合成数据的场景,例如创建虚拟角色用于游戏开发、生成训练数据用于机器学习模型、以及模拟用户行为用于市场调研。通过更精确地控制生成过程,PILOT能够生成更真实、更具代表性的合成数据,从而提高相关应用的性能和效果。该研究的潜在影响在于推动生成式AI在各个领域的应用,并提高合成数据的质量和可用性。
📄 摘要(原文)
Generative AI applications commonly leverage user personas as a steering mechanism for synthetic data generation, but reliance on natural language representations forces models to make unintended inferences about which attributes to emphasize, limiting precise control over outputs. We introduce PILOT (Psychological and Linguistic Output Targeting), a two-phase framework for steering large language models with structured psycholinguistic profiles. In Phase 1, PILOT translates natural language persona descriptions into multidimensional profiles with normalized scores across linguistic and psychological dimensions. In Phase 2, these profiles guide generation along measurable axes of variation. We evaluate PILOT across three state-of-the-art LLMs (Mistral Large 2, Deepseek-R1, LLaMA 3.3 70B) using 25 synthetic personas under three conditions: Natural-language Persona Steering (NPS), Schema-Based Steering (SBS), and Hybrid Persona-Schema Steering (HPS). Results demonstrate that schema-based approaches significantly reduce artificial-sounding persona repetition while improving output coherence, with silhouette scores increasing from 0.098 to 0.237 and topic purity from 0.773 to 0.957. Our analysis reveals a fundamental trade-off: SBS produces more concise outputs with higher topical consistency, while NPS offers greater lexical diversity but reduced predictability. HPS achieves a balance between these extremes, maintaining output variety while preserving structural consistency. Expert linguistic evaluation confirms that PILOT maintains high response quality across all conditions, with no statistically significant differences between steering approaches.