Semantic Voting: A Self-Evaluation-Free Approach for Efficient LLM Self-Improvement on Unverifiable Open-ended Tasks

📄 arXiv: 2509.23067v1 📥 PDF

作者: Chunyang Jiang, Yonggang Zhang, Yiyang Cai, Chi-Min Chan, Yulong Liu, Mingming Chen, Wei Xue, Yike Guo

分类: cs.CL, cs.AI

发布日期: 2025-09-27


💡 一句话要点

提出语义投票方法,无需自评估即可高效提升LLM在不可验证开放任务上的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自提升 语义相似度 伪标签 不可验证任务

📋 核心要点

  1. 现有LLM自提升方法依赖自评估,计算成本高昂且易受模型偏差影响,导致过度自信。
  2. 提出语义投票方法,通过计算语义相似度实现软匹配,避免了复杂的自评估过程。
  3. 实验表明,该方法在计算效率和性能上均优于自评估方法,适用于多种模型和任务。

📝 摘要(中文)

监督数据的获取成本日益增长,推动了对大型语言模型(LLM)自提升的极大兴趣。像多数投票这样简单的无监督信号已被证明在生成可验证任务的伪标签方面有效,但由于响应的开放性,它们在不可验证任务(例如,翻译)中的适用性受到限制。因此,自评估机制(例如,自判断和熵最小化)主要用于导出伪标签。然而,依赖于LLM的自评估通常会产生很高的计算开销,并由于内在偏差而引入过度自信的问题。为了应对这些挑战,我们提出了一种新颖的、无需自评估的不可验证任务方法,旨在实现轻量级但有效的自提升。受到可验证任务中常用的多数投票的启发,我们提出了语义投票作为一种新颖的机制,它将硬匹配(即精确匹配)的原则放宽为软匹配(即语义相似性)。软匹配是通过利用轻量级句子嵌入模型来量化语义相似性来实现的,从而减轻了过度的计算负担和与自评估相关的内在偏差限制。全面的实验表明,我们的方法在计算效率方面取得了显著的提升,并且在不同的模型架构和任务中,总体性能优于自评估方法。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在不可验证的开放式任务(如翻译、摘要生成等)中进行自提升时,过度依赖自评估机制所带来的问题。现有方法通常使用LLM进行自评估来生成伪标签,但这种方式计算成本高昂,并且由于LLM固有的偏差,容易产生过拟合和过度自信的问题。

核心思路:论文的核心思路是借鉴可验证任务中常用的多数投票方法,并将其扩展到不可验证任务中。不同于直接比较文本的精确匹配,论文提出使用语义相似度进行软匹配,即“语义投票”。通过计算不同生成结果之间的语义相似度,选择最具有代表性的结果作为伪标签,从而避免了复杂的自评估过程。

技术框架:整体框架包括以下几个步骤:1) 使用LLM生成多个候选答案;2) 使用轻量级的句子嵌入模型计算两两候选答案之间的语义相似度;3) 基于语义相似度进行投票,选择与其他候选答案语义最相似的答案作为伪标签;4) 使用生成的伪标签对LLM进行微调,实现自提升。

关键创新:最重要的创新点在于提出了“语义投票”的概念,将硬匹配转化为软匹配,从而避免了对LLM进行自评估。这种方法不仅降低了计算成本,还减轻了LLM偏差带来的影响。

关键设计:论文的关键设计包括:1) 选择合适的句子嵌入模型,需要在计算效率和语义表达能力之间进行权衡;2) 设计合适的投票策略,例如可以使用平均相似度或加权相似度等;3) 探索不同的微调策略,例如可以使用不同的学习率或正则化方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,语义投票方法在多种模型架构和任务上均优于自评估方法。在计算效率方面,语义投票显著降低了计算成本。在性能方面,语义投票在翻译、摘要等任务上取得了明显的提升,验证了其有效性。具体的性能提升数据在论文中进行了详细的展示。

🎯 应用场景

该研究成果可广泛应用于各种需要LLM进行自提升的场景,尤其是在缺乏高质量标注数据的开放式任务中,例如机器翻译、文本摘要、对话生成等。通过降低自提升的计算成本和减轻模型偏差,可以更高效地训练出性能更优越的LLM,从而提升相关应用的质量和用户体验。未来,该方法还可以扩展到其他类型的任务和模型中。

📄 摘要(原文)

The rising cost of acquiring supervised data has driven significant interest in self-improvement for large language models (LLMs). Straightforward unsupervised signals like majority voting have proven effective in generating pseudo-labels for verifiable tasks, while their applicability to unverifiable tasks (e.g., translation) is limited by the open-ended character of responses. As a result, self-evaluation mechanisms (e.g., self-judging and entropy minimization) are predominantly used to derive pseudo-labels. However, self-evaluation relying on LLMs typically incurs high computational overhead and introduces overconfidence issues due to intrinsic biases. To address these challenges, we propose a novel self-evaluation-free approach for unverifiable tasks, designed for lightweight yet effective self-improvement. Inspired by majority voting commonly employed in verifiable tasks, we propose semantic voting as a novel mechanism that relaxes the principle of hard matching (i.e., exact matching) toward soft matching (i.e., semantic similarity). Soft matching is achieved by leveraging a lightweight sentence embedding model to quantify semantic similarity, thereby mitigating excessive computational burden and intrinsic bias-associated limitations of self-evaluation. Comprehensive experiments demonstrate that our method achieves substantial gains in computational efficiency and overall better performance than self-evaluation methods across diverse model architectures and tasks.