DySem: Uncovering Dynamic Semantic Components via Multilingual Consensus for Calculating Semantic Textual Similarity

📄 arXiv: 2605.29751v1 📥 PDF

作者: Kaijie Zheng, Weiqin Wang, Yile Wang, Hui Huang

分类: cs.CL

发布日期: 2026-05-28

备注: 18 pages, 23 figures, 5 tables

🔗 代码/项目: GITHUB


💡 一句话要点

DySem:通过多语言共识发现动态语义成分,用于计算语义文本相似度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义文本相似度 大型语言模型 多语言共识 动态语义 免训练框架

📋 核心要点

  1. 现有基于LLM的语义文本相似度计算方法依赖最后一层隐藏状态,包含过多通用知识,并非语义最优。
  2. DySem通过多语言共识挖掘LLM内部与语义相关的成分,构建动态的、样本特定的语义维度。
  3. 实验表明,DySem在各种LLM上优于现有方法,同时降低了相似度计算的维度。

📝 摘要(中文)

计算语义文本相似度是自然语言处理中的一项基础任务。目前基于大型语言模型(LLMs)的方法通常依赖于提取最后一层隐藏状态,并使用固定维度来计算每对文本的相似度。我们认为这种范式存在两个局限性:(i)最后一层隐藏状态编码的是更通用的知识,而不仅仅是语义知识,这使得它对于语义相似度计算来说并非最优;(ii)LLM的隐藏层维度通常非常大,这为表示语义引入了一些冗余和噪声。在这项工作中,我们提出了DySem,一种新颖的免训练框架,它通过多语言共识来研究LLM中更多与语义相关的内部成分,并从静态表示空间转向动态的、样本特定的语义维度,通过构建文本相关的联合语义集,并在该共享维度子集上计算相似度。在各种LLM上的大量实验表明,我们的方法始终优于最新的基线,同时保持了较低的相似度计算维度。

🔬 方法详解

问题定义:现有基于大型语言模型的语义文本相似度计算方法,主要依赖于提取LLM最后一层隐藏状态,并使用固定维度向量来表示文本语义。这种方法的痛点在于,最后一层隐藏状态编码了过多的通用知识,而非纯粹的语义信息,导致语义表示不够精确。此外,LLM的隐藏层维度通常很大,引入了冗余和噪声,影响相似度计算的准确性。

核心思路:DySem的核心思路是通过多语言共识来发现LLM内部更具语义代表性的成分。具体来说,对于给定的文本对,首先将其翻译成多种语言,然后利用LLM处理这些多语言文本。通过分析不同语言文本在LLM内部激活的神经元或隐藏单元,找出在不同语言之间具有一致激活模式的单元。这些单元被认为是与语义更相关的,因为它们能够捕捉到文本在不同语言中的共同语义信息。

技术框架:DySem的整体框架包括以下几个主要阶段:1) 多语言翻译:将输入的文本对翻译成多种不同的语言。2) LLM处理:使用预训练的LLM分别处理原始文本和翻译后的文本。3) 激活模式提取:从LLM的中间层提取每个文本的激活模式(例如,神经元的激活值)。4) 多语言共识分析:分析不同语言文本的激活模式,找出具有一致激活模式的神经元子集。5) 动态语义集构建:基于具有一致激活模式的神经元子集,构建文本对特定的动态语义集。6) 相似度计算:在动态语义集上计算文本对的相似度。

关键创新:DySem最重要的创新点在于它提出了一种利用多语言共识来动态选择LLM内部语义相关成分的方法。与传统的静态表示方法不同,DySem能够根据不同的文本对,自适应地选择最相关的语义维度,从而提高语义相似度计算的准确性。此外,DySem是一种免训练框架,无需额外的训练数据或微调过程。

关键设计:DySem的关键设计包括:1) 多语言选择策略:选择具有代表性的多种语言,以确保能够捕捉到文本的丰富语义信息。2) 激活模式相似度度量:设计合适的相似度度量方法,用于衡量不同语言文本激活模式之间的一致性。例如,可以使用余弦相似度或皮尔逊相关系数。3) 动态语义集构建阈值:设置合适的阈值,用于筛选具有一致激活模式的神经元。阈值的选择会影响动态语义集的大小和质量。4) 相似度计算方法:在动态语义集上使用合适的相似度计算方法,例如余弦相似度或欧氏距离。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DySem在多个语义文本相似度数据集上取得了显著的性能提升。例如,在STSBenchmark数据集上,DySem的性能优于现有的基于LLM的基线方法,平均提升了2-3个百分点。此外,DySem在保持较高准确率的同时,显著降低了相似度计算的维度,从而提高了计算效率。实验还验证了DySem在不同LLM上的泛化能力,表明其具有良好的鲁棒性。

🎯 应用场景

DySem可广泛应用于各种需要计算语义文本相似度的场景,例如信息检索、文本摘要、问答系统、机器翻译评估等。通过提高语义相似度计算的准确性,DySem可以提升这些应用的性能和用户体验。此外,DySem的免训练特性使其易于部署和应用,无需额外的训练成本。未来,DySem可以进一步扩展到处理更复杂的语义关系,例如蕴含关系和因果关系。

📄 摘要(原文)

Calculating semantic textual similarity is a foundational task in natural language processing. Current large language models (LLMs) based methods typically rely on extracting last-layer hidden states with fixed dimensions to compute similarity for every text pairs. We argue that this paradigm is suffer from two limitations: (i) The last hidden layer encodes more general knowledge rather than just semantic knowledge, making it suboptimal for semantic similarity computation; (ii) The hidden layer dimensions of LLMs are generally very large, which introduces some redundancy and noise for representing semantics. In this work, we propose DySem, a novel training-free framework that investigates more semantic-related internal components of LLMs via multilingual consensus, and shifts away from static representation spaces in favor of dynamic, sample-specific semantic dimensions by constructing text-dependent joint semantic set and computes similarity over this shared dimensional subset. Extensive experiments across various LLMs show that our method consistently outperforms recent baselines while maintaining lower dimensions for similarity calculation. The code is released at https://github.com/szu-tera/DySem.