Say It Another Way: Auditing LLMs with a User-Grounded Automated Paraphrasing Framework

📄 arXiv: 2505.03563v3 📥 PDF

作者: Cléa Chataigner, Rebecca Ma, Prakhar Ganesh, Yuhao Chen, Afaf Taïk, Elliot Creager, Golnoosh Farnadi

分类: cs.CL

发布日期: 2025-05-06 (更新: 2025-10-08)


💡 一句话要点

AUGMENT:一种用户行为驱动的LLM自动复述框架,用于可靠的审计。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 审计 提示工程 复述生成 用户行为建模

📋 核心要点

  1. 现有LLM审计方法缺乏对用户真实交互的考量,无约束的prompt复述可能掩盖了关键的语言和人口统计因素。
  2. AUGMENT框架通过用户行为驱动的受控复述生成,确保复述的可靠性和审计意义,从而更有效地发现LLM的弱点。
  3. 在BBQ和MMLU数据集上的实验表明,AUGMENT能够揭示传统方法难以发现的LLM系统性弱点,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLM)对提示语措辞的细微变化高度敏感,这对可靠的审计提出了挑战。先前的方法通常采用无约束的提示语复述,这可能忽略了影响真实用户交互的语言和人口统计因素。我们介绍AUGMENT(自然语言转换的自动化用户驱动建模与评估),这是一个用于生成受控复述的框架,该框架以用户行为为基础。AUGMENT利用语言学规则,并通过对指令遵循、语义相似性和真实性的检查来保证质量,确保复述对于审计而言既可靠又有意义。通过对BBQ和MMLU数据集的案例研究,我们表明,受控复述揭示了在无约束变化下仍然隐藏的系统性弱点。这些结果突出了AUGMENT框架对于可靠审计的价值。

🔬 方法详解

问题定义:大型语言模型对prompt的措辞非常敏感,这使得对其进行可靠的审计变得困难。现有的prompt复述方法通常是无约束的,没有充分考虑真实用户的交互方式和语言习惯,可能忽略了重要的语言和人口统计因素,导致审计结果不准确或不具有代表性。

核心思路:AUGMENT的核心思路是生成受控的prompt复述,这些复述是基于用户行为的,并且经过严格的质量控制。通过模拟真实用户的提问方式,并确保复述的语义相似性和真实性,AUGMENT能够更有效地发现LLM的潜在弱点。这种方法避免了无约束复述可能引入的噪声和偏差,提高了审计的可靠性。

技术框架:AUGMENT框架包含以下几个主要模块:1) 语言学规则应用:利用语言学知识来生成prompt的各种变体。2) 指令遵循检查:确保生成的复述仍然符合原始prompt的意图。3) 语义相似性评估:衡量复述与原始prompt之间的语义相似度,避免语义漂移。4) 真实性验证:评估复述是否符合真实用户的语言习惯和表达方式。整个流程旨在生成高质量、用户驱动的prompt复述。

关键创新:AUGMENT的关键创新在于其用户驱动的复述生成方法和严格的质量控制机制。与传统的无约束复述方法相比,AUGMENT能够更好地模拟真实用户的交互,并确保复述的可靠性和审计意义。这种方法能够更有效地发现LLM的潜在弱点,提高审计的准确性和可靠性。

关键设计:AUGMENT的关键设计包括:1) 使用语言学规则进行prompt转换,例如主动语态和被动语态的转换、同义词替换等。2) 利用预训练语言模型(如BERT)计算复述与原始prompt之间的语义相似度。3) 通过人工评估或众包的方式验证复述的真实性,确保其符合真实用户的语言习惯。4) 设定阈值来控制复述的质量,例如语义相似度阈值、真实性评分阈值等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过在BBQ和MMLU数据集上的实验,AUGMENT框架揭示了传统无约束复述方法难以发现的LLM系统性弱点。实验结果表明,AUGMENT生成的受控复述能够更有效地触发LLM的错误行为,从而更好地评估LLM的性能和可靠性。具体性能数据未知,但强调了相比于无约束方法,AUGMENT能发现更多系统性问题。

🎯 应用场景

AUGMENT框架可应用于各种LLM的审计和评估,例如检测LLM在不同语言风格或人口统计群体下的偏见,评估LLM在处理不同类型问题时的鲁棒性。该框架有助于提高LLM的可靠性和安全性,促进其在各个领域的广泛应用,例如智能客服、内容生成和教育等。

📄 摘要(原文)

Large language models (LLMs) are highly sensitive to subtle changes in prompt phrasing, posing challenges for reliable auditing. Prior methods often apply unconstrained prompt paraphrasing, which risk missing linguistic and demographic factors that shape authentic user interactions. We introduce AUGMENT (Automated User-Grounded Modeling and Evaluation of Natural Language Transformations), a framework for generating controlled paraphrases, grounded in user behaviors. AUGMENT leverages linguistically informed rules and enforces quality through checks on instruction adherence, semantic similarity, and realism, ensuring paraphrases are both reliable and meaningful for auditing. Through case studies on the BBQ and MMLU datasets, we show that controlled paraphrases uncover systematic weaknesses that remain obscured under unconstrained variation. These results highlight the value of the AUGMENT framework for reliable auditing.