Cognitive Linguistic Identity Fusion Score (CLIFS): A Scalable Cognition-Informed Approach to Quantifying Identity Fusion from Text
作者: Devin R. Wright, Jisun An, Yong-Yeol Ahn
分类: cs.CL
发布日期: 2025-09-20
备注: Authors' accepted manuscript (postprint; camera-ready). To appear in the Proceedings of EMNLP 2025. Pagination/footer layout may differ from the Version of Record
🔗 代码/项目: GITHUB
💡 一句话要点
提出认知语言融合度量(CLIFS),利用认知语言学和LLM实现可扩展的身份融合量化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 身份融合 认知语言学 大型语言模型 隐喻检测 暴力风险评估
📋 核心要点
- 现有身份融合的量化方法依赖于调查或实地接触,成本高昂且难以大规模应用。
- CLIFS利用认知语言学和大型语言模型,通过隐喻检测自动评估文本中的身份融合程度。
- 实验表明,CLIFS在基准测试中优于现有自动化方法和人工标注,并在暴力风险评估中提升显著。
📝 摘要(中文)
量化身份融合——个体将自我与另一实体或抽象目标(如宗教团体、政党、意识形态等)在心理上融合——对于理解群体行为至关重要。本文提出认知语言融合度量(CLIFS),一种融合认知语言学与大型语言模型(LLM)的新型指标,它建立在隐喻检测之上。与需要受控调查或直接实地接触的传统图像和语言量表不同,CLIFS提供完全自动化、可扩展的评估,同时与已建立的语言测量方法保持高度一致。在基准测试中,CLIFS优于现有的自动化方法和人工标注。作为概念验证,我们将CLIFS应用于暴力风险评估,证明它可以将暴力风险评估提高240%以上。基于我们对新的NLP任务的识别和早期成功,我们强调需要开发更大、更多样化的数据集,涵盖额外的融合目标领域和文化背景,以增强泛化性并进一步推进这一新兴领域。CLIFS模型和代码已公开。
🔬 方法详解
问题定义:论文旨在解决身份融合的自动化、可扩展量化问题。现有方法,如问卷调查和访谈,需要大量的人工干预,成本高昂,难以大规模应用,并且可能受到主观偏差的影响。因此,需要一种能够自动、高效、准确地从文本中量化身份融合程度的方法。
核心思路:论文的核心思路是利用认知语言学理论,将身份融合视为一种隐喻现象,即个体将自我与目标实体进行概念上的融合。通过检测文本中反映这种融合的隐喻表达,可以推断出个体对目标的身份融合程度。大型语言模型(LLMs)在隐喻检测方面表现出色,因此可以用于自动化地识别和量化这些隐喻表达。
技术框架:CLIFS的技术框架主要包括以下几个阶段:1) 文本输入:输入包含个体对目标实体描述的文本数据。2) 隐喻检测:使用预训练的大型语言模型(如BERT)进行微调,以检测文本中与身份融合相关的隐喻表达。3) 融合度量:基于检测到的隐喻表达,计算CLIFS得分,该得分反映了个体对目标的身份融合程度。4) 评估与应用:将CLIFS得分应用于各种下游任务,如暴力风险评估,并评估其性能。
关键创新:论文的关键创新在于将认知语言学理论与大型语言模型相结合,提出了一种全新的身份融合量化方法。与传统方法相比,CLIFS具有自动化、可扩展、高效等优点。此外,CLIFS还引入了一种新的NLP任务——基于隐喻检测的身份融合量化。
关键设计:CLIFS的关键设计包括:1) 隐喻检测模型的选择与微调:选择合适的预训练语言模型,并使用标注数据进行微调,以提高隐喻检测的准确率。2) CLIFS得分的计算方法:设计合理的得分计算公式,将检测到的隐喻表达转化为量化的身份融合程度。3) 数据集的构建:构建包含不同融合目标领域和文化背景的大规模数据集,以提高模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CLIFS在身份融合量化任务中表现出色,优于现有的自动化方法和人工标注。在暴力风险评估中,CLIFS能够将评估准确率提高240%以上,证明了其在实际应用中的巨大潜力。代码和模型已开源。
🎯 应用场景
CLIFS可应用于多个领域,如政治学(量化选民对政党的认同感)、市场营销(评估消费者对品牌的忠诚度)、社会心理学(研究群体行为和冲突)以及安全领域(预测暴力风险)。该研究有助于更深入地理解人类行为,并为相关领域的决策提供支持。
📄 摘要(原文)
Quantifying identity fusion -- the psychological merging of self with another entity or abstract target (e.g., a religious group, political party, ideology, value, brand, belief, etc.) -- is vital for understanding a wide range of group-based human behaviors. We introduce the Cognitive Linguistic Identity Fusion Score (CLIFS), a novel metric that integrates cognitive linguistics with large language models (LLMs), which builds on implicit metaphor detection. Unlike traditional pictorial and verbal scales, which require controlled surveys or direct field contact, CLIFS delivers fully automated, scalable assessments while maintaining strong alignment with the established verbal measure. In benchmarks, CLIFS outperforms both existing automated approaches and human annotation. As a proof of concept, we apply CLIFS to violence risk assessment to demonstrate that it can improve violence risk assessment by more than 240%. Building on our identification of a new NLP task and early success, we underscore the need to develop larger, more diverse datasets that encompass additional fusion-target domains and cultural backgrounds to enhance generalizability and further advance this emerging area. CLIFS models and code are public at https://github.com/DevinW-sudo/CLIFS.