Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

📄 arXiv: 2505.02311v2 📥 PDF

作者: Jihao Zhao, Chunlai Zhou, Daixuan Li, Shuaishuai Zu, Biao Qin

分类: cs.CL

发布日期: 2025-05-05 (更新: 2025-11-08)


💡 一句话要点

提出AttenHScore,用于问答系统中大模型自适应调用,解决小模型幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 小型语言模型 幻觉检测 自适应调用 问答系统

📋 核心要点

  1. 现有大小模型协同问答方法在小模型出现幻觉时缺乏精确的调用时机判断。
  2. 提出AttenHScore指标,通过评估小模型生成过程中的幻觉累积和传播,动态调整大模型调用。
  3. 实验表明,AttenHScore在多个QA数据集上优于基线,尤其在复杂查询中提升了幻觉检测能力。

📝 摘要(中文)

本文提出了一种针对大小语言模型协作范式的优化方法,旨在解决小模型推理过程中出现的幻觉问题。现有方法主要集中于后处理,与语言模型的推理过程分离,导致计算成本高且效果有限。本文提出了一种实用的调用评估指标AttenHScore,用于计算小语言模型生成过程中幻觉的累积和传播,从而放大潜在的推理错误。通过动态调整检测阈值,可以更准确地实时调用大型语言模型。此外,考虑到小语言模型有限的推理能力,本文还利用不确定性感知知识重组来帮助它们更好地从不同的文本块中捕获关键信息。大量实验表明,AttenHScore在多个问答数据集上优于大多数基线,尤其是在处理复杂查询时,能够增强实时幻觉检测能力。该策略无需额外的模型训练,并且可以灵活地适应各种基于Transformer的语言模型。

🔬 方法详解

问题定义:论文旨在解决在大小语言模型协同问答系统中,如何精确地判断何时应该调用大型语言模型来纠正小型语言模型的幻觉问题。现有方法主要依赖于后处理技术,这些技术与语言模型的推理过程分离,导致计算成本高昂且效果有限,无法实现实时干预。

核心思路:论文的核心思路是设计一个能够实时评估小型语言模型推理过程中幻觉风险的指标,并在风险超过一定阈值时动态地调用大型语言模型。通过这种方式,可以在幻觉造成严重影响之前及时进行干预,从而提高问答系统的准确性和可靠性。

技术框架:整体框架包含以下几个主要阶段:1) 小型语言模型进行初始推理生成答案;2) AttenHScore模块实时评估生成过程中的幻觉风险;3) 动态阈值调整模块根据AttenHScore值判断是否需要调用大型语言模型;4) 如果需要调用,则大型语言模型对小型语言模型的答案进行修正或重新生成答案;5) 输出最终答案。此外,还使用了不确定性感知知识重组方法来辅助小型语言模型更好地理解输入文本。

关键创新:最重要的技术创新点在于AttenHScore指标的设计。AttenHScore能够量化小型语言模型在生成过程中幻觉的累积和传播,从而实现对幻觉风险的实时评估。与现有方法相比,AttenHScore直接作用于语言模型的推理过程,能够更早地发现和纠正幻觉。

关键设计:AttenHScore的具体计算方式未知,但根据摘要描述,它基于注意力机制,并考虑了幻觉的累积和传播。动态阈值调整模块的具体算法未知,但其目标是根据AttenHScore的值动态地调整调用大型语言模型的阈值,以平衡性能和成本。不确定性感知知识重组方法的具体实现细节未知,但其目标是帮助小型语言模型更好地理解输入文本,从而减少幻觉的产生。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的AttenHScore在多个问答数据集上优于大多数基线方法,尤其是在处理复杂查询时,能够显著提高实时幻觉检测能力。该方法无需额外的模型训练,并且可以灵活地适应各种基于Transformer的语言模型,具有很强的实用性和通用性。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于各种需要语言模型进行问答的场景,例如智能客服、知识库检索、教育辅导等。通过自适应地调用大型语言模型,可以提高问答系统的准确性和可靠性,降低计算成本,并提升用户体验。未来,该方法有望扩展到其他自然语言处理任务中,例如文本摘要、机器翻译等。

📄 摘要(原文)

The collaborative paradigm of large and small language models (LMs) effectively balances performance and cost, yet its pivotal challenge lies in precisely pinpointing the moment of invocation when hallucinations arise in small LMs. Previous optimization efforts primarily focused on post-processing techniques, which were separate from the reasoning process of LMs, resulting in high computational costs and limited effectiveness. In this paper, we propose a practical invocation evaluation metric called AttenHScore, which calculates the accumulation and propagation of hallucinations during the generation process of small LMs, continuously amplifying potential reasoning errors. By dynamically adjusting the detection threshold, we achieve more accurate real-time invocation of large LMs. Additionally, considering the limited reasoning capacity of small LMs, we leverage uncertainty-aware knowledge reorganization to assist them better capture critical information from different text chunks. Extensive experiments reveal that our AttenHScore outperforms most baselines in enhancing real-time hallucination detection capabilities across multiple QA datasets, especially when addressing complex queries. Moreover, our strategies eliminate the need for additional model training and display flexibility in adapting to various transformer-based LMs.