Leveraging a Cognitive Model to Measure Subjective Similarity of Human and GPT-4 Written Content

📄 arXiv: 2409.00269v2 📥 PDF

作者: Tailia Malloy, Maria José Ferreira, Fei Fang, Cleotilde Gonzalez

分类: cs.CL

发布日期: 2024-08-30 (更新: 2024-10-10)

备注: 7 Figures, 1 table


💡 一句话要点

提出IBIS指标,结合认知模型与LLM嵌入,提升人类主观相似度衡量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 认知模型 大型语言模型 主观相似性 实例学习 个性化推荐

📋 核心要点

  1. 现有基于LLM嵌入的相似度计算方法忽略了个体认知差异,无法准确反映人类主观相似性。
  2. IBIS指标结合IBL认知模型与LLM嵌入,考虑个体偏见和约束,更贴近人类决策过程。
  3. 通过电子邮件分类数据集验证,IBIS指标在衡量人类主观相似性方面表现出优势。

📝 摘要(中文)

本文提出了一种名为Instance-Based Individualized Similarity (IBIS) 的指标,它结合了基于实例的学习 (IBL) 认知模型与大型语言模型 (LLM)(如GPT-4)的嵌入向量,旨在更准确地衡量人类的主观相似性。传统的余弦相似度依赖于LLM的训练语料,可能无法反映个体的主观认知、偏见和约束。IBIS指标通过考虑个体决策的认知机制,弥补了这一不足,尤其适用于教育和推荐等场景,在这些场景中,个体判断数量有限且偏见影响显著。为了评估IBIS指标,本文还构建了一个人类对电子邮件进行分类的数据集,将邮件分为危险(钓鱼邮件)或安全邮件。实验结果表明,利用认知模型能够有效提升人类主观相似性的衡量。

🔬 方法详解

问题定义:论文旨在解决现有基于大型语言模型(LLM)嵌入的相似度计算方法无法准确反映人类主观相似性的问题。现有方法,如余弦相似度,依赖于LLM的训练语料,忽略了个体认知、偏见和约束,导致在教育、推荐等需要考虑个体差异的场景中表现不佳。

核心思路:论文的核心思路是将认知模型(具体而言是Instance-Based Learning, IBL)与LLM的嵌入向量相结合,构建一种新的相似度度量方式,即Instance-Based Individualized Similarity (IBIS)。IBIS通过模拟人类的决策过程,考虑个体经验和偏见对相似性判断的影响,从而更准确地反映人类的主观相似性。

技术框架:IBIS指标的计算流程主要包括以下几个步骤:1) 使用LLM(如GPT-4)生成文本的嵌入向量;2) 利用IBL认知模型模拟个体对不同文本的分类或判断过程,IBL模型会根据个体以往的经验(即实例)来预测当前文本的类别;3) 将LLM嵌入向量和IBL模型的预测结果结合起来,计算IBIS指标。IBIS指标综合考虑了文本的语义信息和个体的认知偏好。

关键创新:IBIS指标的关键创新在于将认知模型引入到相似度计算中,使其能够反映个体的主观认知和偏见。与传统的基于LLM嵌入的相似度计算方法相比,IBIS指标更加个性化,能够更好地适应不同个体的需求。

关键设计:IBL模型的关键参数包括:衰减率(decay rate),用于控制以往经验对当前决策的影响程度;噪声参数(noise parameter),用于模拟个体决策中的随机性。这些参数可以根据具体的应用场景进行调整,以获得最佳的性能。此外,IBIS指标还需要选择合适的LLM来生成文本的嵌入向量。论文中使用GPT-4,但也可以使用其他LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了一个人类对电子邮件进行分类的数据集,用于评估IBIS指标的性能。实验结果表明,IBIS指标在衡量人类主观相似性方面优于传统的基于LLM嵌入的相似度计算方法。具体而言,IBIS指标能够更好地预测人类对电子邮件的分类结果,尤其是在存在个体偏见的情况下。

🎯 应用场景

该研究成果可应用于个性化推荐系统、教育评估、心理学研究等领域。例如,在教育领域,IBIS指标可以用于评估学生作业的相似度,并根据学生的认知特点提供个性化的反馈。在推荐系统中,IBIS指标可以用于发现用户感兴趣的内容,并提供更精准的推荐结果。此外,该方法还可以用于研究人类的认知过程,例如,了解个体如何根据经验和偏见进行决策。

📄 摘要(原文)

Cosine similarity between two documents can be computed using token embeddings formed by Large Language Models (LLMs) such as GPT-4, and used to categorize those documents across a range of uses. However, these similarities are ultimately dependent on the corpora used to train these LLMs, and may not reflect subjective similarity of individuals or how their biases and constraints impact similarity metrics. This lack of cognitively-aware personalization of similarity metrics can be particularly problematic in educational and recommendation settings where there is a limited number of individual judgements of category or preference, and biases can be particularly relevant. To address this, we rely on an integration of an Instance-Based Learning (IBL) cognitive model with LLM embeddings to develop the Instance-Based Individualized Similarity (IBIS) metric. This similarity metric is beneficial in that it takes into account individual biases and constraints in a manner that is grounded in the cognitive mechanisms of decision making. To evaluate the IBIS metric, we also introduce a dataset of human categorizations of emails as being either dangerous (phishing) or safe (ham). This dataset is used to demonstrate the benefits of leveraging a cognitive model to measure the subjective similarity of human participants in an educational setting.