Single- vs. Dual-Prompt Dialogue Generation with LLMs for Job Interviews in Human Resources

📄 arXiv: 2502.18650v2 📥 PDF

作者: Joachim De Baer, A. Seza Doğruöz, Thomas Demeester, Chris Develder

分类: cs.CL

发布日期: 2025-02-25 (更新: 2025-09-18)

备注: 12 pages. Accepted to the Fourth Workshop on Generation, Evaluation and Metrics (GEM^2) at ACL 2025. ACL Anthology version available at https://aclanthology.org/2025.gem-1.74

期刊: Proceedings of the Fourth Workshop on Generation, Evaluation and Metrics (GEM^2), pages 947-957, Vienna, Austria and virtual meeting, August 2025. Association for Computational Linguistics


💡 一句话要点

对比单/双Prompt方法,利用LLM合成HR面试对话,提升对话质量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM 对话生成 人力资源 面试对话 单Prompt 双Prompt 合成数据 对话质量评估

📋 核心要点

  1. 真实HR面试数据获取困难,对话式智能体训练面临挑战,需要高质量的合成数据。
  2. 提出对比单Prompt和双Prompt两种LLM对话生成方法,旨在提升合成HR面试对话的质量。
  3. 实验表明,双Prompt方法显著提升了生成对话的质量,胜率远高于单Prompt方法,且结果稳定。

📝 摘要(中文)

本文研究了如何利用大型语言模型(LLMs)生成高质量的人力资源(HR)面试对话,用于优化对话式智能体。由于获取真实的人工数据具有挑战性,因此采用合成数据生成方法。论文比较了两种基于LLM的对话生成方法:单Prompt方法和双Prompt方法(两个智能体相互对话)。通过让评判LLM进行成对比较,评估哪种方法生成的对话质量更高,即更难与真实人类对话区分。实验结果表明,虽然双Prompt方法的token数量增加了六倍,但其生成的面试对话的胜率比单Prompt方法高2到10倍。无论使用GPT-4o还是Llama 3.3 70B进行对话生成或质量评估,这一差异都保持一致。

🔬 方法详解

问题定义:论文旨在解决HR领域中,由于真实面试数据稀缺,如何利用LLM生成高质量、难以与人类对话区分的合成面试对话的问题。现有方法,如直接使用单个Prompt生成对话,生成的对话质量较低,难以满足训练对话式智能体的需求。

核心思路:论文的核心思路是对比单Prompt和双Prompt两种对话生成方法。双Prompt方法模拟了面试官和应聘者之间的真实互动,通过两个智能体之间的对话,生成更自然、更丰富的面试内容。这种方法旨在提高生成对话的真实性和多样性。

技术框架:整体流程包括:1) 使用单Prompt或双Prompt方法生成面试对话;2) 使用评判LLM(GPT-4o或Llama 3.3 70B)对生成的对话进行成对比较,判断是否为AI生成;3) 统计不同方法生成的对话的胜率,评估对话质量。双Prompt方法涉及两个LLM智能体,分别扮演面试官和应聘者,通过多轮对话生成完整的面试过程。

关键创新:关键创新在于对比了单Prompt和双Prompt两种不同的LLM对话生成策略,并验证了双Prompt方法在生成高质量HR面试对话方面的有效性。与单Prompt方法相比,双Prompt方法能够更好地模拟真实面试场景,生成更具互动性和真实感的对话。

关键设计:论文的关键设计包括:1) Prompt的设计,需要清晰地定义面试官和应聘者的角色和目标;2) 对话轮数的设置,需要保证对话的完整性和信息量;3) 评判LLM的选择和评估指标,使用胜率作为评估对话质量的标准,避免主观偏差。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,使用双Prompt方法生成的面试对话的胜率比单Prompt方法高2到10倍,表明双Prompt方法能够显著提升生成对话的质量。这一结果在不同的LLM(GPT-4o和Llama 3.3 70B)上都得到了验证,表明该方法的鲁棒性较好。虽然双Prompt方法的token数量增加了六倍,但对话质量的提升幅度远大于token数量的增加,具有实际意义。

🎯 应用场景

该研究成果可应用于HR领域的对话式智能体开发,例如面试模拟、招聘辅助等。高质量的合成面试数据可以用于训练和优化智能体,提高其在真实面试场景中的表现。此外,该方法也可以推广到其他对话生成领域,例如客服、教育等,具有广泛的应用前景。

📄 摘要(原文)

Optimizing language models for use in conversational agents requires large quantities of example dialogues. Increasingly, these dialogues are synthetically generated by using powerful large language models (LLMs), especially in domains where obtaining authentic human data is challenging. One such domain is human resources (HR). In this context, we compare two LLM-based dialogue generation methods for producing HR job interviews, and assess which method generates higher-quality dialogues, i.e., those more difficult to distinguish from genuine human discourse. The first method uses a single prompt to generate the complete interview dialogue. The second method uses two agents that converse with each other. To evaluate dialogue quality under each method, we ask a judge LLM to determine whether AI was used for interview generation, using pairwise interview comparisons. We empirically find that, at the expense of a sixfold increase in token count, interviews generated with the dual-prompt method achieve a win rate 2 to 10 times higher than those generated with the single-prompt method. This difference remains consistent regardless of whether GPT-4o or Llama 3.3 70B is used for either interview generation or quality judging.