Bridging the Knowledge-Prediction Gap in LLMs on Multiple-Choice Questions
作者: Yoonah Park, Haesung Pyun, Yohan Jo
分类: cs.CL
发布日期: 2025-09-28 (更新: 2025-12-09)
💡 一句话要点
提出KAPPA以解决大语言模型在多项选择题上的知识预测差距问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 多项选择题 知识预测 模型对齐 KAPPA 机器学习 自然语言处理
📋 核心要点
- 现有的大语言模型在多项选择题上表现不佳,尽管在自由生成任务中能够展示正确的知识,显示出知识与预测之间的差距。
- 论文提出KAPPA方法,通过对模型隐状态进行调整,实现知识坐标与预测坐标的对齐,从而改善模型在多项选择题上的表现。
- 实验结果表明,KAPPA在Big-Bench-Hard和ARC-Challenge的二元选择重构任务中显著提高了准确率,并且在自由形式问题上也有效。
📝 摘要(中文)
大型语言模型(LLMs)在多项选择题(MCQs)上常常表现不佳,尽管在其他上下文中能够正确生成知识。为探讨这种知识预测差距的机制并减轻其影响,研究者进行了探测分析,发现某些层的残差流包含由两个重要基构成的子空间:知识基和预测基。研究表明,错误预测源于模型隐状态在这两个基上的不对齐。因此,提出了KAPPA(基于投影调整的知识对齐预测),这是一种无参数干预方法,能够将隐状态转换为在该子空间内对齐预测坐标与知识坐标。实验结果显示,KAPPA显著提高了准确性,并且在多个基准测试中表现优于对照组。
🔬 方法详解
问题定义:本论文旨在解决大型语言模型在多项选择题上知识预测与实际预测之间的差距。现有方法未能有效对齐模型的隐状态,导致错误预测。
核心思路:论文提出的KAPPA方法通过对模型隐状态进行投影调整,使得知识坐标与预测坐标在同一子空间内对齐,从而提高预测准确性。
技术框架:KAPPA的整体架构包括对模型隐状态的分析、知识基和预测基的提取,以及通过投影调整实现坐标对齐的过程。主要模块包括数据预处理、隐状态分析和投影调整。
关键创新:KAPPA的主要创新在于提出了一种无参数的干预方法,通过几何视角理解知识与预测之间的差距,显著改善了模型的预测能力。
关键设计:在设计中,KAPPA不依赖于额外的参数设置,利用现有的隐状态进行调整,确保了方法的高效性和适应性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,KAPPA在Big-Bench-Hard和ARC-Challenge的二元选择任务中,准确率显著提高,且在多个数据集上的交叉实验支持了其子空间的泛化能力。KAPPA在自由形式问题上的有效性进一步验证了其广泛适用性。
🎯 应用场景
该研究的潜在应用领域包括教育评估、智能问答系统和其他需要多项选择题的场景。通过改善模型在MCQs上的表现,KAPPA能够提升自动化评测的准确性和可靠性,进而影响教育技术和人工智能领域的应用。未来,KAPPA的理念也可能扩展到其他类型的问答任务中,推动模型的进一步发展。
📄 摘要(原文)
Large Language Models (LLMs) often fail on multiple-choice questions (MCQs) despite demonstrating correct knowledge in other contexts, such as free-form generation. To investigate the mechanism underlying this knowledge-prediction gap on MCQs and alleviate it, we conduct a probing analysis and find that residual streams in certain layers contain a subspace spanned by two important bases: a \emph{knowledge basis} that encodes the probability of the ground-truth answer for a given MCQ and a \emph{prediction basis} that encodes the probability of the answer choice predicted by the model. We observe that incorrect predictions arise from a misalignment of the model's hidden states along these two bases. Hence, we introduce \textbf{KAPPA} (Knowledge-Aligned Prediction through Projection-based Adjustment), a parameter-free intervention that transforms the hidden states to align the prediction coordinate with the knowledge coordinate within this subspace. Experiments on binary-choice reformulations of Big-Bench-Hard and ARC-Challenge show that KAPPA substantially improves accuracy and consistently outperforms baselines. While optimal subspaces differ across tasks, subspaces generalize to some extent, as supported by cross-dataset experiments. Moreover, KAPPA extends its effectiveness to free-form questions beyond MCQs. Our work provides a new geometric understanding of the knowledge-prediction gap and offers a practical method for better aligning model behavior with its latent knowledge.