Rationale-Aware Answer Verification by Pairwise Self-Evaluation
作者: Akira Kawabata, Saku Sugawara
分类: cs.CL
发布日期: 2024-10-07 (更新: 2024-10-25)
备注: EMNLP 2024
💡 一句话要点
提出REPS方法,通过成对自评估提升答案验证器对推理过程合理性的判断能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 答案验证 推理合理性 自评估 大型语言模型 知识推理
📋 核心要点
- 现有答案验证方法仅依赖答案正确性训练验证器,忽略了推理过程的合理性,导致验证器性能受限。
- REPS方法通过LLM的成对自评估,迭代筛选出具有有效推理过程的答案,用于训练更可靠的验证器。
- 实验表明,使用REPS训练的验证器在多个推理基准上显著优于传统方法,验证了该方法的有效性。
📝 摘要(中文)
答案验证旨在识别大型语言模型(LLM)生成的候选答案中的正确解。现有方法通常通过将解标注为正确或不正确来训练验证器模型,而标注的依据仅仅是最终答案是否与标准答案匹配。然而,这种方法忽略了解中存在的任何有缺陷的推理过程,从而削弱了验证器区分合理和有缺陷推理的能力。实证表明,在StrategyQA中,只有19%的LLM生成的正确答案具有有效的推理过程,导致验证器不可靠。进一步证明,在有效推理上训练验证器可以显著提高其区分有效和有缺陷推理的能力。为了在没有额外人工监督的情况下构建更好的验证器,我们引入了REPS(通过成对选择进行推理增强),这是一种通过迭代应用成对自评估来从候选答案中选择有效推理的方法,评估过程使用生成解的同一个LLM。在三个推理基准(ARC-Challenge、DROP和StrategyQA)上,使用REPS选择的解训练的验证器优于使用传统训练方法训练的验证器。结果表明,训练可靠的验证器除了确保最终答案的正确性外,还需要确保推理过程的有效性,这对于模型辅助人类解决复杂的推理任务至关重要。
🔬 方法详解
问题定义:论文旨在解决答案验证任务中,现有方法忽略推理过程合理性,导致验证器无法有效区分正确答案和错误推理的问题。现有方法仅基于答案是否正确来训练验证器,忽略了即使答案正确,其推理过程也可能存在缺陷的情况,从而导致验证器性能下降。
核心思路:论文的核心思路是通过自评估的方式,筛选出具有合理推理过程的答案,并用这些答案来训练验证器。具体来说,利用生成答案的同一个LLM,对候选答案进行成对比较,选择推理过程更合理的答案,从而提高训练数据的质量。
技术框架:REPS方法主要包含以下几个阶段:1) 使用LLM生成多个候选答案;2) 对候选答案进行成对比较,利用LLM判断哪个答案的推理过程更合理;3) 根据成对比较的结果,选择出具有最合理推理过程的答案;4) 使用选择出的答案训练验证器。整个过程迭代进行,不断优化训练数据和验证器。
关键创新:REPS方法的关键创新在于利用LLM进行自评估,从而在没有额外人工标注的情况下,筛选出具有合理推理过程的答案。与现有方法相比,REPS方法更加注重推理过程的合理性,从而能够训练出更加可靠的验证器。
关键设计:REPS方法中,成对比较的设计至关重要。具体来说,对于每一对候选答案,LLM需要判断哪个答案的推理过程更合理。这可以通过设计合适的prompt来实现,例如,可以要求LLM解释每个答案的推理过程,并比较两个推理过程的合理性。此外,还可以使用一些技巧来提高LLM的判断准确率,例如,可以多次进行成对比较,并取多数票的结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用REPS方法训练的验证器在ARC-Challenge、DROP和StrategyQA三个推理基准上均取得了显著的性能提升。例如,在StrategyQA上,REPS方法将验证器的准确率提高了多个百分点,证明了该方法在提高验证器可靠性方面的有效性。与传统训练方法相比,REPS方法能够更好地识别和区分合理和不合理的推理过程。
🎯 应用场景
该研究成果可应用于智能问答系统、教育辅导系统等领域,提高机器对复杂推理问题的理解和判断能力。通过验证答案的推理过程,可以帮助用户识别潜在的错误推理,从而做出更明智的决策。未来,该技术有望应用于更广泛的领域,例如医疗诊断、金融分析等。
📄 摘要(原文)
Answer verification identifies correct solutions among candidates generated by large language models (LLMs). Current approaches typically train verifier models by labeling solutions as correct or incorrect based solely on whether the final answer matches the gold answer. However, this approach neglects any flawed rationale in the solution yielding the correct answer, undermining the verifier's ability to distinguish between sound and flawed rationales. We empirically show that in StrategyQA, only 19% of LLM-generated solutions with correct answers have valid rationales, thus leading to an unreliable verifier. Furthermore, we demonstrate that training a verifier on valid rationales significantly improves its ability to distinguish valid and flawed rationale. To make a better verifier without extra human supervision, we introduce REPS (Rationale Enhancement through Pairwise Selection), a method for selecting valid rationales from candidates by iteratively applying pairwise self-evaluation using the same LLM that generates the solutions. Verifiers trained on solutions selected by REPS outperform those trained using conventional training methods on three reasoning benchmarks (ARC-Challenge, DROP, and StrategyQA). Our results suggest that training reliable verifiers requires ensuring the validity of rationales in addition to the correctness of the final answers, which would be critical for models assisting humans in solving complex reasoning tasks.