Confidence-Credibility Aware Weighted Ensembles of Small LLMs Outperform Large LLMs in Emotion Detection

作者: Menna Elgabry, Ali Hamdi

分类: cs.CL, cs.LG

发布日期: 2025-12-19

备注: Accepted at IRICT 2025

💡 一句话要点

置信度-可信度加权的小LLM集成在情感检测中超越大型LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感检测 模型集成 小型LLM 置信度加权 可信度感知

📋 核心要点

现有情感检测方法依赖大型同构模型，忽略了小型模型的多样性和效率。
提出一种置信度-可信度加权集成框架，结合多个小型LLM的优势，提升性能。
实验表明，该集成方法在情感检测任务上超越了大型LLM，且参数效率更高。

📝 摘要（中文）

本文提出了一种基于文本的情感检测的置信度加权、可信度感知的集成框架，灵感来源于孔多塞陪审团定理(CJT)。与通常依赖同构架构的传统集成不同，我们的方法结合了架构多样的小型transformer大型语言模型(sLLM)——BERT、RoBERTa、DistilBERT、DeBERTa和ELECTRA，每个模型都经过了情感分类的完全微调。为了保持误差多样性，我们在利用每个模型独特偏差的同时，最小化参数收敛。一种双重加权投票机制集成了全局可信度(验证F1分数)和局部置信度(实例级概率)，以动态地加权模型贡献。在DAIR-AI数据集上的实验表明，我们的可信度-置信度集成达到了93.5%的宏F1分数，超过了最先进的基准，并显著优于大型LLM，包括Falcon、Mistral、Qwen和Phi，即使在任务特定的低秩适应(LoRA)之后也是如此。我们的小型LLM集成总共只有595M参数，证明比高达7B参数的模型更具参数效率和鲁棒性，这表明精心设计的小型、微调模型的集成可以在情感检测等专门的自然语言处理(NLP)任务中优于更大的LLM。

🔬 方法详解

问题定义：论文旨在解决文本情感检测任务中，大型语言模型（LLM）参数量大、计算成本高的问题。现有方法通常依赖于单一的大型模型，忽略了小型模型在特定任务上的潜力以及模型之间的多样性，导致参数效率低下，且容易过拟合。

核心思路：论文的核心思路是利用孔多塞陪审团定理（CJT）的思想，通过集成多个小型、异构的语言模型，并根据其置信度和可信度进行加权，从而在情感检测任务中获得比单一大型模型更好的性能。这种方法旨在利用每个小型模型的独特优势，同时降低整体的计算成本。

技术框架：整体框架包含以下几个主要步骤： 1. 模型选择与微调：选择多个小型Transformer模型（BERT, RoBERTa, DistilBERT, DeBERTa, ELECTRA），并在情感检测数据集上进行完全微调。 2. 置信度估计：对于每个输入文本，每个模型输出其预测的情感类别以及相应的置信度（概率值）。 3. 可信度评估：使用验证集评估每个模型的全局可信度，通常使用F1分数。 4. 双重加权投票：结合全局可信度（验证F1分数）和局部置信度（实例级概率），动态地加权每个模型的贡献。 5. 集成预测：根据加权后的投票结果，确定最终的情感类别。

关键创新：该方法最重要的创新点在于其双重加权投票机制，它同时考虑了模型的全局可信度（在验证集上的表现）和局部置信度（对当前实例的预测概率）。这种方法能够更准确地评估每个模型在不同情况下的可靠性，从而实现更有效的集成。与传统集成方法相比，该方法更加动态和自适应。

关键设计： * 模型多样性：选择不同架构的Transformer模型，以确保模型之间的误差多样性。 * 可信度计算：使用验证集上的F1分数作为模型可信度的指标。 * 置信度计算：使用模型输出的softmax概率作为置信度指标。 * 加权函数：设计合适的加权函数，将可信度和置信度结合起来，以确定每个模型的投票权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在DAIR-AI情感检测数据集上取得了93.5%的宏F1分数，超越了当前最先进的基准方法，并且显著优于大型语言模型，如Falcon、Mistral、Qwen和Phi，即使这些大型模型经过了LoRA微调。更重要的是，该方法仅使用了595M参数，远小于大型模型的参数量（高达7B），证明了其更高的参数效率。

🎯 应用场景

该研究成果可广泛应用于情感分析相关的领域，如社交媒体舆情监控、客户服务对话分析、在线评论情感挖掘等。通过使用小型模型集成，可以在保证性能的同时，降低计算成本和部署难度，使得情感分析技术能够更广泛地应用于资源受限的场景。未来，该方法可以扩展到其他自然语言处理任务，例如文本分类、命名实体识别等。

📄 摘要（原文）

This paper introduces a confidence-weighted, credibility-aware ensemble framework for text-based emotion detection, inspired by Condorcet's Jury Theorem (CJT). Unlike conventional ensembles that often rely on homogeneous architectures, our approach combines architecturally diverse small transformer-based large language models (sLLMs) - BERT, RoBERTa, DistilBERT, DeBERTa, and ELECTRA, each fully fine-tuned for emotion classification. To preserve error diversity, we minimize parameter convergence while taking advantage of the unique biases of each model. A dual-weighted voting mechanism integrates both global credibility (validation F1 score) and local confidence (instance-level probability) to dynamically weight model contributions. Experiments on the DAIR-AI dataset demonstrate that our credibility-confidence ensemble achieves a macro F1 score of 93.5 percent, surpassing state-of-the-art benchmarks and significantly outperforming large-scale LLMs, including Falcon, Mistral, Qwen, and Phi, even after task-specific Low-Rank Adaptation (LoRA). With only 595M parameters in total, our small LLMs ensemble proves more parameter-efficient and robust than models up to 7B parameters, establishing that carefully designed ensembles of small, fine-tuned models can outperform much larger LLMs in specialized natural language processing (NLP) tasks such as emotion detection.

Confidence-Credibility Aware Weighted Ensembles of Small LLMs Outperform Large LLMs in Emotion Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理