Modeling Subjectivity in Cognitive Appraisal with Language Models
作者: Yuxiang Zhou, Hainiu Xu, Desmond C. Ong, Maria Liakata, Petr Slovak, Yulan He
分类: cs.CL
发布日期: 2025-03-14 (更新: 2025-09-23)
备注: EMNLP 2025 Findings
💡 一句话要点
利用语言模型建模认知评估中的主观性,提升人机交互理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 认知评估 主观性建模 语言模型 人格特质 人口统计信息 自然语言处理 人机交互
📋 核心要点
- 现有方法在用户中心测量中,难以有效建模主观偏好和人类认知差异。
- 论文探索利用语言模型量化认知评估中的主观性,考虑人格特质和人口统计信息。
- 实验结果表明,人格特质和人口统计信息至关重要,但现有校准方法效果不佳。
📝 摘要(中文)
随着语言模型在跨学科、以人为中心的研究中应用日益广泛,人们对其能力的期望也在不断提高。除了擅长传统任务外,模型现在还需要在涉及置信度和人类(不)一致性等用户中心测量方面表现良好,这些因素反映了主观偏好。虽然建模主观性在认知科学中起着至关重要的作用,并且已经被广泛研究,但它与自然语言处理交叉领域的研究仍然不足。鉴于此,我们通过使用微调模型和基于提示的大型语言模型(LLM)进行全面的实验和分析,探索语言模型如何量化认知评估中的主观性。我们的定量和定性结果表明,人格特质和人口统计信息对于衡量主观性至关重要,但现有的事后校准方法通常无法达到令人满意的性能。此外,我们的深入分析为指导自然语言处理和认知科学交叉领域的未来研究提供了宝贵的见解。
🔬 方法详解
问题定义:论文旨在解决如何利用语言模型有效建模认知评估中的主观性的问题。现有方法在处理涉及人类主观判断的任务时,例如情感分析、观点挖掘等,往往忽略了个体差异和认知偏差,导致模型性能下降。此外,现有的事后校准方法难以充分捕捉人格特质和人口统计信息对主观性的影响。
核心思路:论文的核心思路是利用语言模型学习和量化认知评估中的主观性,通过引入人格特质和人口统计信息作为模型的输入,使模型能够更好地理解和预测个体的主观判断。论文认为,个体的主观判断受到其人格特质和人口统计背景的影响,因此将这些信息纳入模型可以提高模型对主观性的建模能力。
技术框架:论文的技术框架主要包括两个部分:一是使用微调的语言模型,二是使用基于提示的大型语言模型(LLM)。对于微调的语言模型,论文首先选择一个预训练的语言模型,然后使用包含人格特质、人口统计信息和认知评估数据的训练集进行微调。对于基于提示的LLM,论文设计了一系列提示,引导LLM生成包含个体主观判断的文本。然后,论文使用这些文本来评估LLM对主观性的建模能力。
关键创新:论文的关键创新在于将人格特质和人口统计信息引入到语言模型中,用于建模认知评估中的主观性。与现有方法相比,论文的方法能够更好地捕捉个体差异和认知偏差,从而提高模型对主观性的建模能力。此外,论文还比较了微调模型和基于提示的LLM在建模主观性方面的性能,为未来的研究提供了参考。
关键设计:论文的关键设计包括:1) 选择合适的人格特质和人口统计信息作为模型的输入;2) 设计有效的提示,引导LLM生成包含个体主观判断的文本;3) 使用合适的损失函数来训练微调的语言模型。具体来说,论文可能使用了交叉熵损失函数或均方误差损失函数,具体取决于任务的性质。此外,论文可能还使用了正则化技术,以防止模型过拟合。
🖼️ 关键图片
📊 实验亮点
实验结果表明,人格特质和人口统计信息对于衡量主观性至关重要。然而,现有的事后校准方法通常无法达到令人满意的性能。论文通过定量和定性分析,深入探讨了语言模型在建模认知评估中的主观性方面的优势和局限性,为未来的研究提供了宝贵的见解。具体性能数据未知,但论文强调了现有校准方法的不足。
🎯 应用场景
该研究成果可应用于情感分析、观点挖掘、用户画像等领域。例如,在情感分析中,可以利用该模型更准确地识别用户的情感倾向,从而为企业提供更好的客户服务。在用户画像中,可以利用该模型更全面地了解用户的个性特征,从而为广告推荐提供更精准的依据。未来,该研究还可以扩展到医疗健康领域,用于评估患者的心理状态。
📄 摘要(原文)
As the utilization of language models in interdisciplinary, human-centered studies grow, expectations of their capabilities continue to evolve. Beyond excelling at conventional tasks, models are now expected to perform well on user-centric measurements involving confidence and human (dis)agreement-factors that reflect subjective preferences. While modeling subjectivity plays an essential role in cognitive science and has been extensively studied, its investigation at the intersection with NLP remains under-explored. In light of this gap, we explore how language models can quantify subjectivity in cognitive appraisal by conducting comprehensive experiments and analyses with both fine-tuned models and prompt-based large language models (LLMs). Our quantitative and qualitative results demonstrate that personality traits and demographic information are critical for measuring subjectivity, yet existing post-hoc calibration methods often fail to achieve satisfactory performance. Furthermore, our in-depth analysis provides valuable insights to guide future research at the intersection of NLP and cognitive science.