LLMs Are Biased Towards Output Formats! Systematically Evaluating and Mitigating Output Format Bias of LLMs
作者: Do Xuan Long, Hai Nguyen Ngoc, Tiviatis Sim, Hieu Dao, Shafiq Joty, Kenji Kawaguchi, Nancy F. Chen, Min-Yen Kan
分类: cs.CL
发布日期: 2024-08-16 (更新: 2025-02-23)
备注: NAACL 2025 Main Conference
💡 一句话要点
系统评估并缓解LLM的输出格式偏差,提升模型在不同格式下的性能一致性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 格式偏差 系统评估 提示工程 微调 指令遵循 输出格式 性能评估
📋 核心要点
- 现有LLM在不同输出格式下表现差异大,缺乏对格式偏差的系统性评估和有效缓解策略。
- 提出一种区分格式约束下性能评估指标的方法,并定义格式偏差指标,旨在提升LLM的格式指令遵循能力。
- 实验表明,通过提示工程和微调,可以有效降低LLM在不同格式下的性能方差,提升模型鲁棒性。
📝 摘要(中文)
本文首次对大型语言模型(LLM)的输出格式偏差进行了系统性评估。该方法区分了格式约束下的两种评估指标:一种衡量遵守格式约束时的性能,另一种评估忽略约束时的性能,从而可靠且准确地评估性能。定义了一个用于测量LLM格式偏差的指标,并建立了有效的策略来减少偏差。实证评估涵盖了四种常用类别——多项选择问答、包装、列表和映射——包含15种广泛使用的格式。在八个生成任务上的评估揭示了最先进的LLM中存在的显著格式偏差。进一步发现,提高LLM在各种格式下的格式指令遵循能力可能会减少格式偏差。基于评估结果,研究了使用合成格式数据进行提示和微调的技术,以减轻格式偏差。这些方法成功地将ChatGPT在包装格式之间的性能方差从235.33降低到0.71 (%$^2$)。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在生成内容时,对输出格式的敏感性问题,即“格式偏差”。现有方法未能系统性地评估和缓解这种偏差,导致LLM在不同格式下的性能差异显著,影响了其在实际应用中的可靠性。
核心思路:核心思路是通过区分格式约束下的性能评估指标来量化格式偏差。具体来说,区分“格式正确性”和“内容正确性”,分别进行评估。然后,通过提高LLM对格式指令的遵循能力来减少格式偏差。这样设计的目的是为了更准确地衡量LLM的真实性能,并有针对性地进行优化。
技术框架:整体框架包括三个主要步骤:1) 定义格式偏差指标:区分格式约束下的两种评估指标,计算格式偏差;2) 评估格式偏差:在多种任务和格式下评估现有LLM的格式偏差;3) 缓解格式偏差:通过提示工程和微调,提高LLM的格式指令遵循能力。
关键创新:关键创新在于提出了一个系统性的评估框架,用于量化LLM的格式偏差。该框架能够区分格式正确性和内容正确性,从而更准确地评估LLM的性能。此外,论文还探索了通过提示工程和微调来缓解格式偏差的有效策略。与现有方法相比,该方法更加全面和系统,能够更有效地解决LLM的格式偏差问题。
关键设计:论文的关键设计包括:1) 定义了格式偏差指标,用于量化LLM在不同格式下的性能差异;2) 构建了一个包含多种任务和格式的评估数据集,用于评估现有LLM的格式偏差;3) 探索了多种提示工程和微调策略,用于提高LLM的格式指令遵循能力。具体的提示工程策略包括使用更清晰的格式指令,而微调策略则包括使用合成的格式数据进行训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM存在显著的格式偏差。通过提示工程和微调,可以有效降低LLM的格式偏差。例如,使用论文提出的方法,ChatGPT在包装格式之间的性能方差从235.33降低到0.71 (%$^2$),显著提升了模型在不同格式下的性能一致性。
🎯 应用场景
该研究成果可应用于各种需要LLM生成结构化输出的场景,例如:自动报告生成、代码生成、知识图谱构建等。通过降低格式偏差,可以提高LLM在这些应用中的可靠性和实用性,并促进LLM在更广泛领域的应用。
📄 摘要(原文)
We present the first systematic evaluation examining format bias in performance of large language models (LLMs). Our approach distinguishes between two categories of an evaluation metric under format constraints to reliably and accurately assess performance: one measures performance when format constraints are adhered to, while the other evaluates performance regardless of constraint adherence. We then define a metric for measuring the format bias of LLMs and establish effective strategies to reduce it. Subsequently, we present our empirical format bias evaluation spanning four commonly used categories -- multiple-choice question-answer, wrapping, list, and mapping -- covering 15 widely-used formats. Our evaluation on eight generation tasks uncovers significant format bias across state-of-the-art LLMs. We further discover that improving the format-instruction following capabilities of LLMs across formats potentially reduces format bias. Based on our evaluation findings, we study prompting and fine-tuning with synthesized format data techniques to mitigate format bias. Our methods successfully reduce the variance in ChatGPT's performance among wrapping formats from 235.33 to 0.71 (%$^2$).