Aligning LLM Uncertainty with Human Disagreement in Subjectivity Analysis

📄 arXiv: 2605.10415v1 📥 PDF

作者: Junyu Lu, Deyi Ji, Xuanyi Liu, Lanyun Zhu, Bo Xu, Liang Yang, Hongfei Lin

分类: cs.CL

发布日期: 2026-05-11


💡 一句话要点

提出DPUA框架,通过不确定性对齐解决主观性分析中人类分歧被忽视的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 主观性分析 不确定性估计 人类分歧 强化学习 分布外泛化 模型校准

📋 核心要点

  1. 现有主观性分析模型依赖聚合标签,抹杀了人类判断的多样性,导致模型在处理模糊样本时表现出不合理的过度自信。
  2. 论文提出DPUA框架,通过分歧感知与不确定性对齐两阶段训练,使模型能够量化并表达与人类分歧一致的不确定性。
  3. 实验证明该方法在维持主观任务准确率的前提下,显著改善了模型对边界样本的校准能力,并增强了分布外泛化性能。

📝 摘要(中文)

目前用于主观性分析的大语言模型通常基于聚合标签进行训练,这种方式将人类判断的多样性压缩为单一监督信号,忽略了低一致性样本的内在不确定性,导致模型产生过度自信的预测,削弱了其在复杂主观场景下的可靠性与泛化能力。本文倡导一种不确定性感知的主观性分析方法,要求模型在做出预测的同时,表达出反映人类分歧的不确定性。为此,作者提出了两阶段的“分歧感知与不确定性对齐”(DPUA)框架。在分歧感知阶段,通过自适应解耦学习增强模型对分歧相关线索的敏感度;在不确定性对齐阶段,利用基于GRPO的奖励优化提升不确定性感知推理,使模型的置信度表达与人类分歧分布保持一致。在三个主观性分析任务上的实验表明,DPUA在保持任务性能的同时,有效缓解了边界样本的过度自信问题,并提升了模型在分布外(OOD)场景下的泛化能力。

🔬 方法详解

问题定义:现有主观性分析任务多采用单一标签聚合,忽略了样本本身的主观分歧度。这种范式导致模型在面对具有争议性的边界样本时,倾向于给出过于确定的预测,从而在实际应用中缺乏鲁棒性。

核心思路:论文主张模型不仅要给出预测结果,还应具备“不确定性感知”能力。通过显式建模人类的分歧分布,引导模型学习如何表达与人类判断一致的置信度,从而实现从“确定性预测”向“不确定性感知预测”的范式转变。

技术框架:DPUA框架包含两个核心阶段:一是分歧感知阶段,通过自适应解耦学习(Adaptive Decoupled Learning)提取分歧线索;二是不确定性对齐阶段,利用基于GRPO(Group Relative Policy Optimization)的强化学习策略,对模型的推理过程和置信度输出进行奖励优化。

关键创新:引入了不确定性对齐机制,将人类分歧分布作为监督信号的一部分,而非仅仅依赖最终标签。通过解耦学习策略,在不牺牲主任务性能的前提下,增强了模型对复杂语义中模糊性的捕捉能力。

关键设计:采用了多任务联合建模方式,同时优化标签预测、推理过程(Rationale)生成及不确定性表达。在对齐阶段,利用GRPO算法根据模型输出的置信度与人类分歧分布的匹配程度计算奖励,通过策略梯度更新模型参数,确保模型在处理争议性样本时能输出合理的置信度区间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在三个主观性分析基准数据集上的实验表明,DPUA框架在保持高准确率的同时,显著降低了模型在边界样本上的置信度偏差。对比基线模型,DPUA在不确定性校准指标(如ECE)上表现更优,且在分布外(OOD)测试集上展现出更强的泛化鲁棒性,有效解决了主观任务中常见的过度自信问题。

🎯 应用场景

该研究在舆情分析、内容审核、医疗诊断及法律判决等高度依赖主观判断的领域具有重要价值。通过量化模型的不确定性,系统能够识别出“高风险”或“争议性”样本,从而触发人工复核机制,显著提升AI辅助决策系统的可靠性与安全性,减少模型过度自信带来的潜在风险。

📄 摘要(原文)

Large language models for subjectivity analysis are typically trained with aggregated labels, which compress variations in human judgment into a single supervision signal. This paradigm overlooks the intrinsic uncertainty of low-agreement samples and often induces overconfident predictions, undermining reliability and generalization in complex subjective settings. In this work, we advocate uncertainty-aware subjectivity analysis, where models are expected to make predictions while expressing uncertainty that reflects human disagreement. To operationalize this perspective, we propose a two-phase Disagreement Perception and Uncertainty Alignment (DPUA) framework. Specifically, DPUA jointly models label prediction, rationale generation, and uncertainty expression under an uncertainty-aware setting. In the disagreement perception phase, adaptive decoupled learning enhances the model's sensitivity to disagreement-related cues while preserving task performance. In the uncertainty alignment phase, GRPO-based reward optimization further improves uncertainty-aware reasoning and aligns the model's confidence expression with the human disagreement distribution. Experiments on three subjectivity analysis tasks show that DPUA preserves task performance while better aligning model uncertainty with human disagreement, mitigating overconfidence on boundary samples, and improving out-of-distribution generalization.