Towards Smarter Hiring: Are Zero-Shot and Few-Shot Pre-trained LLMs Ready for HR Spoken Interview Transcript Analysis?
作者: Subhankar Maity, Aniket Deroy, Sudeshna Sarkar
分类: cs.CL, cs.AI
发布日期: 2025-04-08
备注: 32 pages, 24 figures
💡 一句话要点
评估零样本/少样本LLM在HR面试转录分析中的能力,揭示其局限性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人力资源 面试评估 自然语言处理 人机协作
📋 核心要点
- 现有HR面试评估依赖人工,效率低且成本高,自动化评估面临LLM无法准确识别错误和提供有效反馈的挑战。
- 论文核心在于对比分析多个主流LLM在HR面试转录分析任务上的表现,评估其自动化评估的潜力与局限性。
- 实验表明,GPT-4 Turbo和GPT-3.5 Turbo在评分方面接近人类专家,但在错误识别和建议提供方面仍有不足。
📝 摘要(中文)
本研究全面分析了包括GPT-4 Turbo、GPT-3.5 Turbo、text-davinci-003等在内的大型预训练语言模型(LLM)在模拟人力资源(HR)面试中,对候选人进行评分、识别错误以及提供反馈和改进建议方面的表现,并将其与专家人工评估员进行比较。我们引入了一个名为HURIT(人力资源面试转录)的数据集,该数据集包含来自真实HR面试场景的3890份HR面试转录。研究结果表明,预训练的LLM,特别是GPT-4 Turbo和GPT-3.5 Turbo,表现出值得称赞的性能,并且能够产生与专家人工评估员相当的评估结果。尽管这些LLM在提供与人类专家相当的评分方面表现出熟练程度,但它们经常无法识别错误,也无法为候选人在HR面试中的表现改进提供具体的、可操作的建议。我们的研究表明,当前最先进的预训练LLM并不完全适合在HR面试评估中自动部署。相反,我们的研究结果提倡一种人机协作的方法,即纳入人工检查以发现不一致之处,并提供改进反馈质量的措施,这是一种更合适的策略。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在人力资源(HR)面试转录分析中的能力,具体包括评分、错误识别和提供改进建议。现有方法主要依赖人工评估,效率低下且成本高昂。利用LLM进行自动化评估面临的痛点在于,LLM可能无法准确识别面试中的关键错误,并提供有针对性的、可操作的改进建议。
核心思路:论文的核心思路是通过对比分析多个主流LLM在HR面试转录分析任务上的表现,来评估它们在自动化HR面试评估中的潜力与局限性。通过与专家人工评估员的评估结果进行比较,可以量化LLM的性能,并识别其优势和不足。这种对比分析有助于确定LLM是否可以直接应用于自动化HR面试评估,或者是否需要采用人机协作的方法。
技术框架:论文的技术框架主要包括以下几个步骤:1) 构建HR面试转录数据集HURIT,包含3890份真实HR面试转录;2) 选择多个主流LLM,包括GPT-4 Turbo、GPT-3.5 Turbo、Llama-2等;3) 设计实验,让LLM和人工评估员对面试转录进行评分、错误识别和建议提供;4) 使用人工评估指标(如准确率、召回率等)对LLM的评估结果进行量化分析,并与人工评估员的结果进行比较。
关键创新:论文的关键创新在于:1) 构建了一个大规模的HR面试转录数据集HURIT,为LLM在HR领域的应用研究提供了数据基础;2) 对比分析了多个主流LLM在HR面试转录分析任务上的表现,揭示了LLM在自动化HR面试评估中的优势和局限性;3) 提出了人机协作的HR面试评估方法,即利用LLM进行初步评估,然后由人工专家进行审核和改进,以提高评估的准确性和有效性。
关键设计:论文的关键设计包括:1) HURIT数据集的构建,确保数据集的真实性和多样性;2) 实验设计,确保LLM和人工评估员在相同的条件下进行评估;3) 评估指标的选择,确保能够全面量化LLM的性能;4) 人机协作方法的提出,旨在结合LLM和人工专家的优势,提高HR面试评估的效率和质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4 Turbo和GPT-3.5 Turbo在HR面试评分方面表现出色,与人类专家的评分结果具有可比性。然而,在错误识别和提供改进建议方面,LLM的表现仍有不足,表明当前LLM尚不能完全替代人工评估。研究强调了人机协作在HR面试评估中的重要性。
🎯 应用场景
该研究成果可应用于自动化HR面试评估系统,辅助招聘人员筛选候选人,提高招聘效率。通过人机协作,可以提升评估的准确性和公平性,为候选人提供更有效的反馈和改进建议。未来,该技术还可扩展到其他领域的面试评估,如技术面试、销售面试等。
📄 摘要(原文)
This research paper presents a comprehensive analysis of the performance of prominent pre-trained large language models (LLMs), including GPT-4 Turbo, GPT-3.5 Turbo, text-davinci-003, text-babbage-001, text-curie-001, text-ada-001, llama-2-7b-chat, llama-2-13b-chat, and llama-2-70b-chat, in comparison to expert human evaluators in providing scores, identifying errors, and offering feedback and improvement suggestions to candidates during mock HR (Human Resources) interviews. We introduce a dataset called HURIT (Human Resource Interview Transcripts), which comprises 3,890 HR interview transcripts sourced from real-world HR interview scenarios. Our findings reveal that pre-trained LLMs, particularly GPT-4 Turbo and GPT-3.5 Turbo, exhibit commendable performance and are capable of producing evaluations comparable to those of expert human evaluators. Although these LLMs demonstrate proficiency in providing scores comparable to human experts in terms of human evaluation metrics, they frequently fail to identify errors and offer specific actionable advice for candidate performance improvement in HR interviews. Our research suggests that the current state-of-the-art pre-trained LLMs are not fully conducive for automatic deployment in an HR interview assessment. Instead, our findings advocate for a human-in-the-loop approach, to incorporate manual checks for inconsistencies and provisions for improving feedback quality as a more suitable strategy.