Library Learning Doesn't: The Curious Case of the Single-Use "Library"
作者: Ian Berlot-Attwell, Frank Rudzicz, Xujie Si
分类: cs.LG, cs.CL, cs.SC
发布日期: 2024-10-26
备注: 24 pages, 7 figures. Accepted to the 4th MATH-AI Workshop at NeurIPS'24
🔗 代码/项目: GITHUB
💡 一句话要点
揭示数学推理LLM库学习的单次使用现象,质疑其可重用性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 库学习 数学推理 函数重用 自我纠正 自我一致性 消融实验 可重用性
📋 核心要点
- 现有LLM库学习系统在数学推理任务中,声称能够学习可重用的工具库,但实际重用率存疑。
- 该研究通过分析LEGO-Prover和TroVE,探究其性能提升是否真正源于库的重用,而非其他因素。
- 实验结果表明,在miniF2F和MATH数据集上,函数重用率极低,自我纠正和一致性才是性能提升的关键。
📝 摘要(中文)
大型语言模型(LLM)的进步推动了用于数学推理的LLM库学习系统的发展。这些系统旨在学习可重用的工具库,例如专门针对一系列任务的正式Isabelle引理或Python程序。许多此类系统的灵感来自于人类将知识构建为可重用和可扩展概念的方式,但目前的方法是否真正学习了可重用的工具库?我们研究了两个报告准确性有所提高的数学库学习系统:LEGO-Prover和TroVE。我们发现,在miniF2F和MATH数据集上,函数重用非常罕见。我们的后续消融实验表明,自我纠正和自我一致性是观察到的性能提升的主要驱动因素,而不是重用。
🔬 方法详解
问题定义:论文旨在研究现有的LLM库学习系统,特别是应用于数学推理任务的系统,是否真正学习到了可重用的工具库。现有方法的痛点在于,虽然声称学习了可重用的库,但实际的重用情况未知,性能提升的真正原因可能被误解。
核心思路:论文的核心思路是通过分析现有库学习系统的行为,特别是函数重用情况,来判断其性能提升是否源于库的重用。如果函数重用率很低,则需要进一步探究其他可能的原因,例如自我纠正和自我一致性。
技术框架:论文主要通过以下步骤进行研究:1) 选择两个已有的库学习系统LEGO-Prover和TroVE进行分析。2) 在miniF2F和MATH数据集上,统计函数重用率。3) 进行消融实验,移除库学习系统的某些组件,观察性能变化,从而判断自我纠正和自我一致性对性能的影响。
关键创新:论文最重要的创新点在于,它挑战了现有LLM库学习系统的“可重用性”假设,通过实验证明,这些系统在数学推理任务中的性能提升可能并非源于库的重用,而是源于自我纠正和自我一致性。这与现有方法的普遍认知存在偏差。
关键设计:论文的关键设计包括:1) 精确定义了“函数重用”的概念,并设计了相应的统计方法。2) 设计了消融实验,通过移除库学习系统的不同组件,来评估其对性能的影响。3) 选择了miniF2F和MATH这两个常用的数学推理数据集,保证了实验结果的可靠性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在miniF2F和MATH数据集上,LEGO-Prover和TroVE的函数重用率极低。消融实验表明,移除库学习系统的某些组件后,性能下降幅度较小,表明自我纠正和自我一致性才是性能提升的主要驱动因素。例如,即使没有库的重用,系统仍然能够通过自我纠正机制达到较高的准确率。
🎯 应用场景
该研究结果对LLM库学习系统的设计具有指导意义。未来的研究可以更加关注如何提高库的实际重用率,或者探索其他更有效的学习策略,例如增强自我纠正和自我一致性能力。此外,该研究也提醒研究人员在评估LLM系统时,需要更加深入地分析其行为,避免对性能提升原因的误解。
📄 摘要(原文)
Advances in Large Language Models (LLMs) have spurred a wave of LLM library learning systems for mathematical reasoning. These systems aim to learn a reusable library of tools, such as formal Isabelle lemmas or Python programs that are tailored to a family of tasks. Many of these systems are inspired by the human structuring of knowledge into reusable and extendable concepts, but do current methods actually learn reusable libraries of tools? We study two library learning systems for mathematics which both reported increased accuracy: LEGO-Prover and TroVE. We find that function reuse is extremely infrequent on miniF2F and MATH. Our followup ablation experiments suggest that, rather than reuse, self-correction and self-consistency are the primary drivers of the observed performance gains. Our code and data are available at https://github.com/ikb-a/curious-case