Diverse LLMs or Diverse Question Interpretations? That is the Ensembling Question

📄 arXiv: 2507.21168v1 📥 PDF

作者: Rafael Rosales, Santiago Miret

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-07-25


💡 一句话要点

对比模型多样性和问题解释多样性,提升LLM二元问答集成性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多样性集成 二元问答 问题解释 模型集成

📋 核心要点

  1. 现有LLM集成方法在利用模型多样性方面存在挑战,难以有效提升性能。
  2. 提出问题解释多样性方法,通过改变问题表述,利用单一模型产生多样性答案。
  3. 实验表明,问题解释多样性在二元问答任务中优于模型多样性,提升集成准确性。

📝 摘要(中文)

有效利用多样性已被证明可以提高包括大型语言模型(LLM)在内的各种机器学习模型的性能。然而,确定使用多样性的最有效方法仍然是一个挑战。本文比较了两种利用LLM回答二元问题的方法:模型多样性,依赖于多个模型回答相同的问题;问题解释多样性,依赖于使用同一模型以不同的方式提问。对于这两种情况,我们都应用多数投票作为集成共识启发式方法来确定最终答案。在boolq、strategyqa和pubmedqa上的实验表明,问题解释多样性始终比模型多样性带来更好的集成准确性。此外,我们对GPT和LLaMa的分析表明,模型多样性通常产生的结果介于最佳和最差的集成成员之间,没有明显的改进。

🔬 方法详解

问题定义:论文旨在解决如何更有效地利用LLM的多样性来提高二元问答任务的准确率的问题。现有方法主要依赖于模型多样性,即使用多个不同的LLM模型进行集成。然而,这种方法的性能提升并不稳定,有时甚至不如单个最佳模型。

核心思路:论文的核心思路是探索问题解释多样性,即通过改变问题的提问方式,让同一个LLM模型从不同的角度理解问题,从而产生多样性的答案。这种方法旨在利用LLM对同一问题不同表述的敏感性,挖掘模型内部的知识和推理能力。

技术框架:整体框架包括两个主要分支:模型多样性和问题解释多样性。对于模型多样性,使用多个不同的LLM模型回答相同的问题,然后通过多数投票确定最终答案。对于问题解释多样性,使用同一个LLM模型回答以不同方式提出的相同问题,同样通过多数投票确定最终答案。实验中使用了boolq, strategyqa, 和 pubmedqa数据集进行评估。

关键创新:关键创新在于提出了问题解释多样性的概念,并证明其在二元问答任务中优于传统的模型多样性方法。这种方法不需要额外的模型训练或微调,而是通过巧妙地改变输入问题来实现性能提升。

关键设计:关键设计在于如何生成多样性的问题表述。论文中可能使用了某种方法(具体方法未知)来自动或手动生成这些不同的问题表述。此外,多数投票作为集成共识启发式方法被用于确定最终答案。具体的参数设置、损失函数、网络结构等技术细节取决于所使用的LLM模型,论文可能没有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在boolq、strategyqa和pubmedqa数据集上,问题解释多样性始终优于模型多样性。对GPT和LLaMa的分析显示,模型多样性的性能通常介于最佳和最差的集成成员之间,没有显著提升。这表明问题解释多样性是一种更有效的LLM集成方法。

🎯 应用场景

该研究成果可应用于各种需要高准确率的二元问答场景,例如医疗诊断辅助、金融风险评估、法律咨询等。通过问题解释多样性,可以提高LLM在这些领域的可靠性和实用性,减少错误判断带来的潜在风险。未来,该方法可以扩展到更复杂的问答任务和领域。

📄 摘要(原文)

Effectively leveraging diversity has been shown to improve performance for various machine learning models, including large language models (LLMs). However, determining the most effective way of using diversity remains a challenge. In this work, we compare two diversity approaches for answering binary questions using LLMs: model diversity, which relies on multiple models answering the same question, and question interpretation diversity, which relies on using the same model to answer the same question framed in different ways. For both cases, we apply majority voting as the ensemble consensus heuristic to determine the final answer. Our experiments on boolq, strategyqa, and pubmedqa show that question interpretation diversity consistently leads to better ensemble accuracy compared to model diversity. Furthermore, our analysis of GPT and LLaMa shows that model diversity typically produces results between the best and the worst ensemble members without clear improvement.