TOPol: Capturing and Explaining Multidimensional Semantic Polarity Fields and Vectors
作者: Gabin Taibi, Lucia Gomez
分类: cs.CL
发布日期: 2025-10-29
备注: 7 pages, 3 figures and 2 tables
💡 一句话要点
TOPol:提出一种捕捉和解释多维语义极性场和向量的半监督框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语义极性分析 多维情感分析 自然语言处理 Transformer模型 上下文建模
📋 核心要点
- 现有情感分析方法通常将情感视为单一维度,无法捕捉语言复杂的多维语义极性。
- TOPol框架通过Transformer嵌入、UMAP降维和Leiden聚类,重建多维极性场,量化语义转变。
- 实验表明,TOPol能有效捕捉情感和非情感极性转变,且对上下文边界定义具有鲁棒性。
📝 摘要(中文)
传统计算语言学方法将情感视为一维尺度,忽略了语言的多维结构。本文提出了TOPol(Topic-Orientation POLarity),一个半监督框架,用于在人工参与的上下文边界(CBs)下重建和解释多维叙事极性场。该框架使用基于Transformer的大型语言模型(tLLM)嵌入文档,应用邻域调整的UMAP投影,并通过Leiden划分分割主题。给定话语体系A和B之间的CB,TOPol计算相应主题边界质心之间的方向向量,产生一个极性场,量化体系转变期间的细粒度语义位移。这种向量表示能够评估CB质量并检测极性变化,从而指导人工参与的CB优化。为了解释识别的极性向量,tLLM比较它们的极值点,并生成具有估计覆盖率的对比标签。稳健性分析表明,只有CB定义(主要的人工可调参数)会显著影响结果,证实了方法论的稳定性。我们在两个语料库上评估TOPol:(i)美国中央银行围绕宏观经济断点的演讲,捕捉非情感语义转变,以及(ii)亚马逊产品评论跨评级分层,其中情感极性与NRC效价对齐。结果表明,TOPol始终如一地捕捉情感和非情感极性转变,为上下文敏感的多维话语分析提供了一个可扩展、通用且可解释的框架。
🔬 方法详解
问题定义:现有语义极性分析方法主要将情感视为一维标量,忽略了语言本身复杂的多维结构。这种简化导致无法捕捉细粒度的语义变化,尤其是在需要考虑上下文语境的情况下,例如政策变化、产品评价等。现有方法难以解释语义极性转变的具体原因和影响。
核心思路:TOPol的核心思路是将文档表示为高维语义空间中的点,通过降维和聚类提取主题,然后计算不同上下文边界(例如,政策变化前后)下主题质心之间的向量,以此表示语义极性的转变。这种向量化的表示方式不仅可以量化极性变化的大小,还可以揭示极性变化的方向和具体内容。
技术框架:TOPol框架包含以下几个主要模块: 1. 文档嵌入:使用基于Transformer的大型语言模型(tLLM)将文档嵌入到高维语义空间中。 2. 降维:应用邻域调整的UMAP(Uniform Manifold Approximation and Projection)算法进行降维,保留局部结构的同时降低计算复杂度。 3. 主题分割:使用Leiden算法对降维后的数据进行聚类,得到不同的主题。 4. 极性向量计算:对于给定的上下文边界(CB),计算不同上下文下对应主题的质心,并计算质心之间的方向向量,得到极性向量。 5. 极性向量解释:使用tLLM比较极性向量的极值点,生成对比标签,解释极性变化的原因。
关键创新:TOPol的关键创新在于它将语义极性分析从一维标量扩展到多维向量场,能够捕捉细粒度的语义变化。此外,TOPol引入了人工参与的上下文边界(HoTL CB)的概念,允许用户根据领域知识调整分析的范围,提高了框架的灵活性和可解释性。通过向量化表示,TOPol能够量化和解释语义极性转变,而不仅仅是判断情感的积极或消极。
关键设计: * 上下文边界(CB)定义:CB是TOPol中最重要的参数,它决定了分析的范围和粒度。CB的定义需要领域专家的参与,以确保分析的有效性。 * 邻域调整的UMAP:通过调整UMAP的邻域参数,可以控制降维的精度和计算复杂度。 * Leiden聚类:Leiden算法是一种高效的聚类算法,可以有效地分割主题。 * 对比标签生成:使用tLLM生成对比标签,解释极性向量的含义,提高可解释性。
🖼️ 关键图片
📊 实验亮点
在两个语料库上的实验表明,TOPol能够有效地捕捉情感和非情感极性转变。在分析美国中央银行演讲时,TOPol成功捕捉了宏观经济断点附近的语义转变。在分析亚马逊产品评论时,TOPol捕捉到的情感极性与NRC效价高度一致。稳健性分析表明,TOPol的结果主要受上下文边界定义的影响,验证了方法论的稳定性。
🎯 应用场景
TOPol可应用于多个领域,如金融领域分析政策变化对市场情绪的影响,产品评论分析中识别用户情感变化,以及舆情监控中追踪社会热点话题的演变。该框架能够提供更细粒度、更可解释的语义分析结果,帮助决策者更好地理解复杂的信息环境,并做出更明智的决策。未来可扩展到跨语言、跨模态的语义分析。
📄 摘要(原文)
Traditional approaches to semantic polarity in computational linguistics treat sentiment as a unidimensional scale, overlooking the multidimensional structure of language. This work introduces TOPol (Topic-Orientation POLarity), a semi-unsupervised framework for reconstructing and interpreting multidimensional narrative polarity fields under human-on-the-loop (HoTL) defined contextual boundaries (CBs). The framework embeds documents using a transformer-based large language model (tLLM), applies neighbor-tuned UMAP projection, and segments topics via Leiden partitioning. Given a CB between discourse regimes A and B, TOPol computes directional vectors between corresponding topic-boundary centroids, yielding a polarity field that quantifies fine-grained semantic displacement during regime shifts. This vectorial representation enables assessing CB quality and detecting polarity changes, guiding HoTL CB refinement. To interpret identified polarity vectors, the tLLM compares their extreme points and produces contrastive labels with estimated coverage. Robustness analyses show that only CB definitions (the main HoTL-tunable parameter) significantly affect results, confirming methodological stability. We evaluate TOPol on two corpora: (i) U.S. Central Bank speeches around a macroeconomic breakpoint, capturing non-affective semantic shifts, and (ii) Amazon product reviews across rating strata, where affective polarity aligns with NRC valence. Results demonstrate that TOPol consistently captures both affective and non-affective polarity transitions, providing a scalable, generalizable, and interpretable framework for context-sensitive multidimensional discourse analysis.