When Does Persona Prompting Actually Help? A Retrieval and Metric Analysis of Expert Role Injection in LLMs
作者: Shuai Xiao, Su Liu, Weikai Zhou, Jialun Wu, Xinjie He, Zhiyuan Lin, Qiyang Xie
分类: cs.AI, cs.LG
发布日期: 2026-05-28
备注: 6 pages, 2 figures. Submitted for peer review
💡 一句话要点
研究表明角色提示主要重塑LLM响应特征而非提升能力,需多指标评估。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 角色提示 大型语言模型 专家角色 检索增强 多指标评估
📋 核心要点
- 现有角色提示评估方法侧重聚合分数,忽略了对不同质量维度的细致影响。
- 论文提出一种受控实验框架,对比不同角色提示策略对LLM响应质量的影响。
- 实验表明角色提示在提升专业深度的同时会降低清晰度,效果受问题类型和领域影响。
📝 摘要(中文)
角色提示被广泛用于引导大型语言模型,但其有效性尚不明确。以往研究常使用聚合分数评估角色提示,难以判断专家角色提示是否持续提升响应质量,或仅改变不同质量维度上的响应。本文通过对比四种提示条件,对1140个开放式问题进行受控比较,问题涵盖38个专家角色和六个领域:无角色提示、通用领域专家提示、基于嵌入的角色检索以及结合嵌入搜索与LLM角色选择的混合检索方法。聚合结果显示条件间总体差异较小。然而,指标层面的分析揭示了一种被聚合平均值掩盖的权衡:角色提示系统性地增加专业深度,同时降低清晰度。这些影响是高度条件性的。角色提示在咨询问题以及医学和心理学等领域表现最佳,在这些领域中,结构化的专家框架和风险沟通具有内在价值。相比之下,基线提示在金融、法律、科学和技术领域的概念性和解释性问题上表现更好,在这些领域中,简洁的纯语言解释更为重要。此外,研究表明混合检索显著优于仅基于嵌入的角色选择,但更好的角色检索并不能消除专业深度与清晰度之间的权衡。总体而言,研究结果表明角色提示主要重塑响应特征,而非广泛提升能力,并且需要多指标评估来理解其影响。
🔬 方法详解
问题定义:现有研究在使用角色提示时,通常只关注整体性能的提升,而忽略了角色提示可能对响应的不同维度(如专业深度、清晰度)产生的影响。此外,角色提示的效果可能受到问题类型和领域的影响,这些因素在以往研究中没有得到充分的考虑。因此,该论文旨在深入研究角色提示在不同场景下的实际效果,并揭示其内在的权衡关系。
核心思路:该论文的核心思路是通过一个受控的实验框架,系统地比较不同角色提示策略对LLM响应质量的影响。通过细粒度的指标分析,揭示角色提示在提升专业深度的同时可能带来的清晰度下降,并探究这种权衡关系在不同问题类型和领域下的表现。此外,论文还研究了不同的角色检索方法对角色提示效果的影响。
技术框架:该研究的技术框架主要包括以下几个部分: 1. 问题集构建:构建包含1140个开放式问题的数据集,涵盖38个专家角色和6个领域。 2. 提示策略设计:设计四种提示条件:无角色提示、通用领域专家提示、基于嵌入的角色检索以及混合检索方法。 3. 响应生成:使用LLM对每个问题在不同提示条件下生成响应。 4. 指标评估:使用多个指标(包括专业深度和清晰度)对生成的响应进行评估。 5. 结果分析:分析不同提示条件下的响应质量,揭示角色提示的效果和权衡关系。
关键创新:该论文的关键创新在于: 1. 细粒度的指标分析:通过对响应的多个维度进行评估,揭示了角色提示在提升专业深度的同时可能带来的清晰度下降。 2. 条件性分析:探究了角色提示的效果在不同问题类型和领域下的差异。 3. 混合检索方法:提出了一种结合嵌入搜索和LLM角色选择的混合检索方法,提高了角色检索的准确性。
关键设计: 1. 角色检索:使用了基于嵌入的角色检索方法,利用预训练语言模型的嵌入向量来衡量问题和角色之间的相似度。 2. 混合检索:结合了嵌入搜索和LLM角色选择,首先使用嵌入搜索筛选出候选角色,然后使用LLM对候选角色进行排序和选择。 3. 评估指标:使用了多个评估指标,包括专业深度(通过专家评估)和清晰度(通过自动指标和人工评估)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,角色提示在咨询问题以及医学和心理学等领域表现最佳,能够显著提升专业深度,但同时会降低清晰度。混合检索方法在角色检索准确率上优于仅基于嵌入的检索方法。研究还发现,在金融、法律、科学和技术领域,基线提示在概念性和解释性问题上表现更好。
🎯 应用场景
该研究成果可应用于智能客服、教育辅导、内容创作等领域。通过选择合适的角色提示策略,可以提升LLM在特定任务中的表现,例如在医疗咨询中,使用专家角色提示可以提供更专业的建议,而在法律咨询中,则需要权衡专业深度和清晰度,以确保用户能够理解。
📄 摘要(原文)
Persona prompting is widely used to steer large language models, yet its practical value remains unclear. Prior work often evaluates persona prompting using aggregate scores, making it difficult to determine whether expert-role prompting consistently improves response quality or instead changes responses along different quality dimensions. We study this question through a controlled comparison of four prompting conditions across 1,140 open-ended questions spanning 38 expert roles and six domains: no role prompt, a generic domain-expert prompt, embedding-based role retrieval, and a hybrid retrieval method combining embedding search with LLM-based role selection. Aggregate results show only small overall differences between conditions. However, metric-level analysis reveals a consistent tradeoff that aggregate averages obscure: role prompting systematically increases expertise depth while reducing clarity. These effects are highly conditional rather than universal. Role prompting performs best on advisory questions and in domains such as medicine and psychology, where structured expert framing and risk communication are intrinsically valuable. In contrast, baseline prompting performs better on conceptual and explanatory questions in finance, legal, science, and technology domains, where concise plain-language explanation is more important. We further show that hybrid retrieval significantly improves over embedding-only role selection, although better role retrieval does not eliminate the broader expertise-depth versus clarity tradeoff. Overall, our findings suggest that persona prompting primarily reshapes response characteristics rather than broadly improving capability, and that multi-metric evaluation is necessary for understanding its effects.