DySem: Uncovering Dynamic Semantic Components of Large Language Models for Calculating Semantic Textual Similarity
作者: Kaijie Zheng, Weiqin Wang, Yile Wang, Hui Huang
分类: cs.CL
发布日期: 2026-05-28 (更新: 2026-05-29)
备注: 18 pages, 23 figures, 5 tables
🔗 代码/项目: GITHUB
💡 一句话要点
DySem:通过动态语义成分挖掘提升大语言模型语义文本相似度计算
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语义文本相似度 大语言模型 动态语义 多语言共识 免训练框架
📋 核心要点
- 现有基于LLM的语义相似度计算方法依赖最后一层隐藏状态,包含过多通用知识,并非语义最优。
- DySem通过多语言共识挖掘LLM内部语义相关组件,构建动态、样本特定的语义维度子集。
- 实验表明,DySem在多种LLM上超越现有基线,同时降低了相似度计算的维度。
📝 摘要(中文)
语义文本相似度计算是自然语言处理中的一项基础任务。目前基于大语言模型(LLM)的方法通常依赖于提取最后一层隐藏状态,并使用固定维度来计算每对文本的相似度。我们认为这种范式存在两个局限性:(i)最后一层隐藏层编码了更通用的知识,而不仅仅是语义知识,这使得它对于语义相似度计算而言并非最优;(ii)LLM的隐藏层维度通常非常大,这为表示语义引入了一些冗余和噪声。在这项工作中,我们提出了DySem,一种新颖的免训练框架,它通过多语言共识来研究LLM中更多与语义相关的内部组件,并放弃静态表示空间,转而支持动态的、样本特定的语义维度,通过构建文本相关的联合语义集,并在该共享维度子集上计算相似度。在各种LLM上的大量实验表明,我们的方法始终优于最新的基线,同时保持了较低的相似度计算维度。代码已发布在https://github.com/szu-tera/DySem。
🔬 方法详解
问题定义:现有基于大语言模型计算语义文本相似度的方法,主要依赖于提取模型最后一层的隐藏状态,并使用固定维度的向量表示文本。这种方法的痛点在于,最后一层隐藏状态包含了过多的通用知识,而不仅仅是语义信息,导致语义表示不够纯粹。此外,大语言模型的隐藏层维度通常非常高,这引入了冗余和噪声,影响了相似度计算的准确性。
核心思路:DySem的核心思路是通过挖掘大语言模型内部更具语义代表性的组件,并动态地选择与当前文本对相关的语义维度子集,从而实现更精确、更高效的语义相似度计算。该方法利用多语言共识来识别模型中与语义相关的内部组件,并构建文本相关的联合语义集,从而在共享的维度子集上进行相似度计算。
技术框架:DySem框架主要包含以下几个阶段:1) 语义组件挖掘:利用多语言平行语料,通过分析不同语言文本在LLM内部各层激活的共性,识别出与语义表达更相关的内部组件。2) 动态语义维度选择:针对给定的文本对,构建文本相关的联合语义集,即选择与这两个文本都相关的语义维度子集。3) 相似度计算:在选定的动态语义维度子集上,计算文本对的相似度。
关键创新:DySem的关键创新在于:1) 动态语义维度:放弃了传统的静态、固定维度的语义表示,转而采用动态的、样本特定的语义维度子集,从而更好地适应不同文本对的语义特征。2) 多语言共识:利用多语言平行语料,通过分析不同语言文本在LLM内部激活的共性,更准确地识别出与语义表达相关的内部组件。
关键设计:论文中没有明确提及关键的参数设置、损失函数、网络结构等技术细节,因为DySem是一个免训练框架。其关键设计在于如何有效地利用多语言共识来挖掘语义组件,以及如何构建文本相关的联合语义集,从而实现动态语义维度的选择。具体实现细节可能包括:不同语言激活向量的对齐方法、语义维度选择的阈值设定等,但这些细节在论文中并未详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DySem在各种大语言模型上均优于最新的基线方法,同时保持了较低的相似度计算维度。具体性能提升数据和对比基线在摘要中没有明确给出,但强调了该方法的一致性和有效性。该方法在降低计算复杂度的同时,提升了语义相似度计算的准确性。
🎯 应用场景
DySem在信息检索、文本聚类、问答系统、机器翻译等领域具有广泛的应用前景。通过更精确地计算文本相似度,可以提高搜索结果的相关性、聚类效果的准确性、问答系统的回答质量以及机器翻译的流畅度和准确性。该研究有助于推动自然语言处理技术的进步,并为构建更智能的文本处理系统提供新的思路。
📄 摘要(原文)
Calculating semantic textual similarity is a foundational task in natural language processing. Current large language models (LLMs) based methods typically rely on extracting last-layer hidden states with fixed dimensions to compute similarity for every text pairs. We argue that this paradigm is suffer from two limitations: (i) The last hidden layer encodes more general knowledge rather than just semantic knowledge, making it suboptimal for semantic similarity computation; (ii) The hidden layer dimensions of LLMs are generally very large, which introduces some redundancy and noise for representing semantics. In this work, we propose DySem, a novel training-free framework that investigates more semantic-related internal components of LLMs via multilingual consensus, and shifts away from static representation spaces in favor of dynamic, sample-specific semantic dimensions by constructing text-dependent joint semantic set and computes similarity over this shared dimensional subset. Extensive experiments across various LLMs show that our method consistently outperforms recent baselines while maintaining lower dimensions for similarity calculation. The code is released at https://github.com/szu-tera/DySem.