AMEL: Accumulated Message Effects on LLM Judgments
作者: Sid-ali Temkit
分类: cs.AI, cs.CL, cs.LG
发布日期: 2026-05-21
备注: 19 pages, 14 figures, 6 tables. Single author. Code, data (75,898 deduplicated API responses), and analysis pipeline at https://github.com/chutapp/amel
💡 一句话要点
揭示LLM评估中的累积消息效应(AMEL),并提出缓解策略
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自动评估 累积消息效应 极性偏差 上下文学习
📋 核心要点
- 大型语言模型在代码审查、内容审核和输出评分等任务中被广泛用作自动评估器,但其评估结果可能受到先前对话历史极性的影响。
- 论文提出累积消息效应(AMEL)的概念,研究LLM在评估任务中,历史对话的极性偏差如何影响其后续的判断。
- 实验结果表明,LLM的判断会受到先前对话极性的影响,尤其是在模型本身不确定的情况下,且负面历史的影响更大。论文还提出了缓解这种偏差的策略。
📝 摘要(中文)
本文研究了大型语言模型(LLM)作为自动评估器时,先前对话历史的极性是否会影响后续判断,作者称之为LLM判断中的累积消息效应(AMEL)。通过对来自4个提供商(OpenAI、Anthropic、Google和四个开源模型)的11个模型进行75898次API调用,作者在孤立情况下或在以主要为正面或负面评估饱和的历史记录之后,呈现相同的测试项目。结果表明,模型会向对话的主要极性转变(d = -0.17,p < 10^-46)。这种效应集中在模型在基线状态下真正不确定的项目上(高熵项目d = -0.34,而确定性基线时d = -0.15)。偏差不会随上下文长度而增长。负面历史记录比正面历史记录产生1.62倍的偏差。模型规模扩大有所帮助,但不能完全解决问题。进一步的分析表明,token概率分布会持续变化,而非在阈值处变化。位置不重要。评估管道最简单的修复方法是为每个项目使用新的上下文;当不可避免地进行批处理时,平衡历史记录会有所帮助。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在作为自动评估器时,其评估结果受到先前对话历史极性影响的问题。现有方法忽略了这种历史信息可能引入的偏差,导致评估结果不准确,尤其是在需要连续评估多个项目时。这种偏差会影响LLM在代码审查、内容审核等领域的可靠性。
核心思路:论文的核心思路是量化和分析LLM在评估任务中受历史对话极性影响的程度,即累积消息效应(AMEL)。通过控制历史对话的极性(正面、负面或中性),并观察LLM对相同测试项目的评估结果,来揭示这种效应的存在和强度。同时,研究不同模型规模、上下文长度等因素对AMEL的影响。
技术框架:论文采用实验方法,主要流程如下:1) 构建包含正面、负面和中性极性的历史对话;2) 将相同的测试项目呈现给LLM,并记录其评估结果;3) 分析评估结果与历史对话极性之间的关系,量化AMEL效应;4) 研究不同因素(模型规模、上下文长度、历史对话位置等)对AMEL的影响;5) 提出缓解AMEL的策略,如使用新的上下文或平衡历史对话。
关键创新:论文的关键创新在于:1) 首次提出并量化了LLM评估中的累积消息效应(AMEL);2) 揭示了负面历史对话对LLM评估的偏差影响更大;3) 提出了缓解AMEL的有效策略,如使用新的上下文或平衡历史对话。
关键设计:实验中,作者使用了来自不同提供商(OpenAI、Anthropic、Google)的11个LLM模型,并进行了75898次API调用。历史对话的极性通过控制其中包含的正面或负面评估数量来控制。测试项目是相同的,以确保评估结果的差异是由历史对话极性引起的。作者还分析了token概率分布的变化,以深入了解AMEL的机制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的判断会受到先前对话极性的显著影响(d = -0.17,p < 10^-46),尤其是在模型本身不确定的情况下(高熵项目d = -0.34)。负面历史对话比正面历史对话产生1.62倍的偏差。虽然模型规模扩大有所帮助,但不能完全消除AMEL效应。这些发现强调了在LLM评估中考虑历史对话极性的重要性。
🎯 应用场景
该研究成果可应用于改进LLM作为自动评估器的可靠性,尤其是在代码审查、内容审核、输出评分等需要连续评估多个项目的场景中。通过消除或减轻AMEL效应,可以提高LLM评估的准确性和公正性,从而提升相关应用的用户体验和决策质量。未来的研究可以探索更复杂的历史对话模式和更有效的缓解策略。
📄 摘要(原文)
Large language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items passing through one conversation. We ask whether the polarity of prior conversation history biases subsequent judgments, an effect we call the accumulated message effect on LLM judgments (AMEL). Across 75,898 API calls to 11 models from 4 providers (OpenAI, Anthropic, Google, and four open-source models), we present identical test items in isolation or following histories saturated with predominantly positive or negative evaluations. Models shift toward the conversation's prevailing polarity (d = -0.17, p < 10^-46). The effect concentrates on items where the model is genuinely uncertain at baseline (d = -0.34 for high-entropy items, vs d = -0.15 when the baseline is deterministic). Bias does not grow with context length: 5 prior turns and 50 produce the same shift (Spearman |r| < 0.01; OLS slope p = 0.80). And there is a negativity asymmetry: paired per item, negative histories induce 1.62x more bias than positive (t = 13.46, p < 10^-39, n = 2,481). Scaling helps but does not solve it (Anthropic: Haiku -0.22 to Opus -0.17; OpenAI: Nano -0.34 to GPT-5.2 -0.17). Three follow-ups narrow the mechanism. The token probability distribution shifts continuously, not at a threshold. The negativity asymmetry has both token-level and semantic components, though attributing the balance is exploratory at our sample sizes. Position does not matter: five biased turns anywhere in a 50-turn history produce the same shift. The simplest fix for evaluation pipelines is a fresh context per item; when batching is unavoidable, balancing the history helps.