Confidence-Credibility Aware Weighted Ensembles of Small LLMs Outperform Large LLMs in Emotion Detection

📄 arXiv: 2512.17630v1 📥 PDF

作者: Menna Elgabry, Ali Hamdi

分类: cs.CL, cs.LG

发布日期: 2025-12-19

备注: Accepted at IRICT 2025


💡 一句话要点

置信度-可信度加权的小LLM集成在情感检测中超越大型LLM

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感检测 模型集成 小型LLM 置信度加权 可信度感知

📋 核心要点

  1. 现有情感检测方法依赖大型同构模型,忽略了小型模型的多样性和效率。
  2. 提出一种置信度-可信度加权集成框架,结合多个小型LLM的优势,提升性能。
  3. 实验表明,该集成方法在情感检测任务上超越了大型LLM,且参数效率更高。

📝 摘要(中文)

本文提出了一种基于文本的情感检测的置信度加权、可信度感知的集成框架,灵感来源于孔多塞陪审团定理(CJT)。与通常依赖同构架构的传统集成不同,我们的方法结合了架构多样的小型transformer大型语言模型(sLLM)——BERT、RoBERTa、DistilBERT、DeBERTa和ELECTRA,每个模型都经过了情感分类的完全微调。为了保持误差多样性,我们在利用每个模型独特偏差的同时,最小化参数收敛。一种双重加权投票机制集成了全局可信度(验证F1分数)和局部置信度(实例级概率),以动态地加权模型贡献。在DAIR-AI数据集上的实验表明,我们的可信度-置信度集成达到了93.5%的宏F1分数,超过了最先进的基准,并显著优于大型LLM,包括Falcon、Mistral、Qwen和Phi,即使在任务特定的低秩适应(LoRA)之后也是如此。我们的小型LLM集成总共只有595M参数,证明比高达7B参数的模型更具参数效率和鲁棒性,这表明精心设计的小型、微调模型的集成可以在情感检测等专门的自然语言处理(NLP)任务中优于更大的LLM。

🔬 方法详解

问题定义:论文旨在解决文本情感检测任务中,大型语言模型(LLM)参数量大、计算成本高的问题。现有方法通常依赖于单一的大型模型,忽略了小型模型在特定任务上的潜力以及模型之间的多样性,导致参数效率低下,且容易过拟合。

核心思路:论文的核心思路是利用孔多塞陪审团定理(CJT)的思想,通过集成多个小型、异构的语言模型,并根据其置信度和可信度进行加权,从而在情感检测任务中获得比单一大型模型更好的性能。这种方法旨在利用每个小型模型的独特优势,同时降低整体的计算成本。

技术框架:整体框架包含以下几个主要步骤: 1. 模型选择与微调:选择多个小型Transformer模型(BERT, RoBERTa, DistilBERT, DeBERTa, ELECTRA),并在情感检测数据集上进行完全微调。 2. 置信度估计:对于每个输入文本,每个模型输出其预测的情感类别以及相应的置信度(概率值)。 3. 可信度评估:使用验证集评估每个模型的全局可信度,通常使用F1分数。 4. 双重加权投票:结合全局可信度(验证F1分数)和局部置信度(实例级概率),动态地加权每个模型的贡献。 5. 集成预测:根据加权后的投票结果,确定最终的情感类别。

关键创新:该方法最重要的创新点在于其双重加权投票机制,它同时考虑了模型的全局可信度(在验证集上的表现)和局部置信度(对当前实例的预测概率)。这种方法能够更准确地评估每个模型在不同情况下的可靠性,从而实现更有效的集成。与传统集成方法相比,该方法更加动态和自适应。

关键设计: * 模型多样性:选择不同架构的Transformer模型,以确保模型之间的误差多样性。 * 可信度计算:使用验证集上的F1分数作为模型可信度的指标。 * 置信度计算:使用模型输出的softmax概率作为置信度指标。 * 加权函数:设计合适的加权函数,将可信度和置信度结合起来,以确定每个模型的投票权重。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在DAIR-AI情感检测数据集上取得了93.5%的宏F1分数,超越了当前最先进的基准方法,并且显著优于大型语言模型,如Falcon、Mistral、Qwen和Phi,即使这些大型模型经过了LoRA微调。更重要的是,该方法仅使用了595M参数,远小于大型模型的参数量(高达7B),证明了其更高的参数效率。

🎯 应用场景

该研究成果可广泛应用于情感分析相关的领域,如社交媒体舆情监控、客户服务对话分析、在线评论情感挖掘等。通过使用小型模型集成,可以在保证性能的同时,降低计算成本和部署难度,使得情感分析技术能够更广泛地应用于资源受限的场景。未来,该方法可以扩展到其他自然语言处理任务,例如文本分类、命名实体识别等。

📄 摘要(原文)

This paper introduces a confidence-weighted, credibility-aware ensemble framework for text-based emotion detection, inspired by Condorcet's Jury Theorem (CJT). Unlike conventional ensembles that often rely on homogeneous architectures, our approach combines architecturally diverse small transformer-based large language models (sLLMs) - BERT, RoBERTa, DistilBERT, DeBERTa, and ELECTRA, each fully fine-tuned for emotion classification. To preserve error diversity, we minimize parameter convergence while taking advantage of the unique biases of each model. A dual-weighted voting mechanism integrates both global credibility (validation F1 score) and local confidence (instance-level probability) to dynamically weight model contributions. Experiments on the DAIR-AI dataset demonstrate that our credibility-confidence ensemble achieves a macro F1 score of 93.5 percent, surpassing state-of-the-art benchmarks and significantly outperforming large-scale LLMs, including Falcon, Mistral, Qwen, and Phi, even after task-specific Low-Rank Adaptation (LoRA). With only 595M parameters in total, our small LLMs ensemble proves more parameter-efficient and robust than models up to 7B parameters, establishing that carefully designed ensembles of small, fine-tuned models can outperform much larger LLMs in specialized natural language processing (NLP) tasks such as emotion detection.