REFER: Mitigating Bias in Opinion Summarisation via Frequency Framed Prompting

📄 arXiv: 2509.15723v1 📥 PDF

作者: Nannan Huang, Haytham M. Fayek, Xiuzhen Zhang

分类: cs.CL

发布日期: 2025-09-19

备注: Accepted to the 5th New Frontiers in Summarization Workshop (NewSumm@EMNLP 2025)


💡 一句话要点

提出REFER框架,通过频率框架提示缓解意见摘要中的偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 意见摘要 公平性 大型语言模型 频率框架提示 偏差缓解

📋 核心要点

  1. 现有意见摘要方法依赖超参数调整或ground truth分布,实际应用受限。
  2. REFER框架借鉴认知科学,通过频率框架提示减少LLM的偏差。
  3. 实验表明,REFER能有效提升LLM在意见摘要任务中的公平性,尤其是在大型模型上。

📝 摘要(中文)

个体表达的观点各不相同,一个公正的摘要应该全面地代表这些观点。先前关于使用大型语言模型(LLM)进行意见摘要公平性的研究依赖于超参数调整或在提示中提供ground truth分布信息。然而,这些方法面临实际的局限性:终端用户很少修改默认模型参数,并且通常无法获得准确的分布信息。本研究基于认知科学研究,该研究表明基于频率的表示通过明确参考类别并减少认知负荷来减少人类统计推理中的系统偏差,因此本研究调查了频率框架提示(REFER)是否可以类似地提高LLM意见摘要的公平性。通过对不同提示框架的系统实验,我们调整了已知可以改善人类推理的技术,以引发语言模型中更有效的信息处理,而不是抽象的概率表示。我们的结果表明,REFER增强了语言模型在总结意见时的公平性。这种效果在较大的语言模型和使用更强的推理指令时尤为明显。

🔬 方法详解

问题定义:论文旨在解决意见摘要任务中存在的偏差问题。现有方法,如依赖超参数调整或提供ground truth分布信息,在实际应用中存在局限性。用户通常不会修改模型默认参数,且准确的分布信息难以获取。因此,如何设计一种更易于应用且有效的偏差缓解方法是本研究要解决的核心问题。

核心思路:论文的核心思路是借鉴认知科学的研究成果,即频率框架表示能够减少人类统计推理中的偏差。通过将抽象的概率表示转化为具体的频率表示,使语言模型能够更有效地处理信息,从而减少意见摘要中的偏差。这种方法旨在通过改变提示方式,而非修改模型本身,来提升公平性。

技术框架:REFER框架的核心在于提示工程的设计。它没有改变LLM的架构或训练方式,而是通过精心设计的提示,引导模型关注不同意见的频率信息。具体流程包括:1) 收集意见数据;2) 将意见数据转化为频率框架表示;3) 构建包含频率信息的提示;4) 将提示输入LLM,生成意见摘要;5) 评估摘要的公平性。

关键创新:该论文的关键创新在于将认知科学中的频率框架概念引入到LLM的提示工程中,用于缓解意见摘要任务中的偏差。与以往依赖超参数调整或ground truth信息的方法不同,REFER框架不需要修改模型参数或提供额外的分布信息,更易于实际应用。

关键设计:REFER框架的关键设计在于频率框架提示的具体形式。论文中可能探讨了不同的频率表示方法,例如使用绝对频率、相对频率或比例等。此外,提示中可能包含引导模型进行推理的指令,例如要求模型关注不同意见的代表性或避免过度强调某些意见。具体的参数设置和损失函数(如果涉及)可能与评估摘要公平性的指标相关,例如衡量不同意见在摘要中的比例是否与原始数据中的比例一致。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,REFER框架能够有效提升LLM在意见摘要任务中的公平性。尤其是在较大的语言模型和使用更强的推理指令时,效果更为显著。具体的性能数据和对比基线(例如,未使用频率框架提示的模型)的提升幅度需要在论文中查找。该研究强调了提示工程在提升LLM公平性方面的潜力。

🎯 应用场景

该研究成果可应用于舆情分析、产品评论摘要、新闻报道摘要等领域,有助于生成更公正、更全面的意见摘要。通过减少偏差,可以提升用户对摘要信息的信任度,并避免因信息失真而导致的误解或决策失误。未来,该方法可以推广到其他自然语言处理任务中,例如文本分类、情感分析等,以提升模型的公平性和可靠性。

📄 摘要(原文)

Individuals express diverse opinions, a fair summary should represent these viewpoints comprehensively. Previous research on fairness in opinion summarisation using large language models (LLMs) relied on hyperparameter tuning or providing ground truth distributional information in prompts. However, these methods face practical limitations: end-users rarely modify default model parameters, and accurate distributional information is often unavailable. Building upon cognitive science research demonstrating that frequency-based representations reduce systematic biases in human statistical reasoning by making reference classes explicit and reducing cognitive load, this study investigates whether frequency framed prompting (REFER) can similarly enhance fairness in LLM opinion summarisation. Through systematic experimentation with different prompting frameworks, we adapted techniques known to improve human reasoning to elicit more effective information processing in language models compared to abstract probabilistic representations.Our results demonstrate that REFER enhances fairness in language models when summarising opinions. This effect is particularly pronounced in larger language models and using stronger reasoning instructions.