Label Effects: Shared Heuristic Reliance in Trust Assessment by Humans and LLM-as-a-Judge
作者: Xin Sun, Di Wu, Sijing Qin, Isao Echizen, Abdallah El Ali, Saku Sugawara
分类: cs.AI, cs.CL
发布日期: 2026-04-07
💡 一句话要点
揭示人类与LLM信任评估中的标签效应,警惕偏见传播
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 标签效应 LLM评估 信任评估 反事实设计 眼动追踪 模型偏见 LLM对齐
📋 核心要点
- 现有研究缺乏对LLM作为评估器时,其判断是否受到来源标签影响的深入分析,可能导致评估结果的偏差。
- 论文采用反事实设计,通过改变信息来源标签(人类或AI)来研究其对人类和LLM信任判断的影响,揭示标签效应。
- 实验结果表明,人类和LLM都受到来源标签的显著影响,更信任标记为人类撰写的内容,这提示了评估和对齐过程中的潜在偏见。
📝 摘要(中文)
本文挑战了大型语言模型(LLM)作为自动评估器(LLM-as-a-Judge)的可靠性,揭示了LLM的信任判断受到披露的来源标签的影响。通过反事实设计,研究发现人类和LLM都更信任被标记为人类撰写的信息,而非相同内容但标记为AI生成的信息。眼动追踪数据显示,人类严重依赖来源标签作为判断的启发式线索。对LLM内部状态的分析表明,模型在不同标签条件下,对标签区域的关注度高于内容区域,且在“人类”标签下这种标签主导更为明显,与人类的注视模式一致。此外,在“AI”标签下,模型决策的不确定性更高。这些结果表明,来源标签是人类和LLM共同的显著启发式线索。这引发了对标签敏感的LLM-as-a-Judge评估的有效性担忧,并谨慎地提出,将模型与人类偏好对齐可能会将人类的启发式依赖传播到模型中,因此需要进行去偏见的评估和对齐。
🔬 方法详解
问题定义:论文旨在研究在使用大型语言模型(LLM)作为自动评估器(LLM-as-a-Judge)时,其评估结果是否会受到信息来源标签(例如,人类生成或AI生成)的影响。现有方法通常假设LLM能够客观地评估内容,而忽略了标签可能带来的偏见,这可能导致评估结果的失真。
核心思路:论文的核心思路是通过反事实设计来隔离和量化标签效应。具体来说,研究人员控制内容本身不变,只改变其来源标签,然后观察人类和LLM对该内容的信任度判断。如果标签变化导致信任度显著变化,则表明存在标签效应。这种设计能够有效地排除内容本身对判断的影响,从而更准确地评估标签的作用。
技术框架:研究主要包含以下几个阶段: 1. 数据收集:收集一系列文本内容,并为每个内容创建两个版本,分别标记为“人类生成”和“AI生成”。 2. 人类实验:招募参与者,向他们展示带有不同标签的内容,并要求他们评估对内容的信任度。同时,使用眼动追踪技术记录参与者的注视模式。 3. LLM实验:使用LLM-as-a-Judge对带有不同标签的内容进行信任度评估。同时,分析LLM内部状态,例如注意力分布和logits,以了解其决策过程。 4. 结果分析:比较人类和LLM在不同标签条件下的信任度判断,以及他们的眼动追踪数据和内部状态,以确定是否存在标签效应,并分析其原因。
关键创新:论文的关键创新在于: 1. 反事实实验设计:通过控制内容不变,只改变标签,从而有效地隔离和量化了标签效应。 2. 多模态数据分析:结合人类的眼动追踪数据和LLM的内部状态分析,更深入地理解了标签效应的产生机制。 3. 揭示了LLM与人类的相似性:发现LLM和人类都受到标签效应的影响,这提示了在模型对齐过程中需要警惕偏见的传播。
关键设计: 1. 标签设计:使用明确的“人类生成”和“AI生成”标签,以确保参与者和LLM能够明确理解信息的来源。 2. 眼动追踪指标:关注参与者在标签区域和内容区域的注视时间比例,以量化他们对标签的关注程度。 3. LLM内部状态分析:分析LLM在标签区域和内容区域的注意力权重分布,以及logits的分布,以了解其决策过程中的不确定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,无论是人类还是LLM,都更倾向于信任标记为“人类生成”的内容。眼动追踪数据显示,人类在判断时会更多地关注标签区域。LLM的内部状态分析也显示,模型在“人类”标签下对标签区域的注意力更高,且在“AI”标签下决策不确定性更高。这些结果有力地证明了标签效应对信任评估的影响。
🎯 应用场景
该研究成果对LLM评估体系的构建具有重要意义,尤其是在涉及内容真实性判断、信息可信度评估等场景。通过消除标签偏见,可以提高LLM评估的客观性和公正性。此外,该研究也为模型对齐提供了新的视角,提醒开发者在追求与人类偏好对齐的同时,需要警惕并避免将人类的认知偏见引入模型。
📄 摘要(原文)
Large language models (LLMs) are increasingly used as automated evaluators (LLM-as-a-Judge). This work challenges its reliability by showing that trust judgments by LLMs are biased by disclosed source labels. Using a counterfactual design, we find that both humans and LLM judges assign higher trust to information labeled as human-authored than to the same content labeled as AI-generated. Eye-tracking data reveal that humans rely heavily on source labels as heuristic cues for judgments. We analyze LLM internal states during judgment. Across label conditions, models allocate denser attention to the label region than the content region, and this label dominance is stronger under Human labels than AI labels, consistent with the human gaze patterns. Besides, decision uncertainty measured by logits is higher under AI labels than Human labels. These results indicate that the source label is a salient heuristic cue for both humans and LLMs. It raises validity concerns for label-sensitive LLM-as-a-Judge evaluation, and we cautiously raise that aligning models with human preferences may propagate human heuristic reliance into models, motivating debiased evaluation and alignment.