Cutting Through the Noise: Boosting LLM Performance on Math Word Problems

作者: Ujjwala Anantheswaran, Himanshu Gupta, Kevin Scaria, Shreyas Verma, Chitta Baral, Swaroop Mishra

分类: cs.CL

发布日期: 2024-05-30 (更新: 2025-09-15)

备注: Published at ICLR 2025 Workshop on Reasoning and Planning for LLMs

💡 一句话要点

提出PROBLEMATHIC数据集并微调LLM，提升其在含噪声数学应用题上的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学应用题 对抗训练 鲁棒性 噪声 微调 prompting 数据集

📋 核心要点

现有LLM在解决数学应用题时，容易受到题目中无关信息（数值噪声）的干扰，导致性能显著下降。
论文提出一种prompting框架，自动生成包含无关变量的对抗性数学应用题，并构建了PROBLEMATHIC数据集。
通过在对抗样本上微调LLM（Llama-2, Mistral），显著提升了模型在含噪声应用题上的鲁棒性和性能。

📝 摘要（中文）

大型语言模型(LLMs)在解决数学应用题(MWPs)等任务中表现出色，但难以处理包含无关信息的实际问题。为了解决这个问题，我们提出了一个prompting框架，通过添加无关变量来生成MWPs的对抗变体。我们引入了一个数据集PROBLEMATHIC，其中包含对抗性和非对抗性的MWPs。我们的实验表明，LLMs容易受到数值噪声的干扰，导致对抗性MWPs的平均相对性能下降约26%。为了缓解这个问题，我们使用来自我们数据集的对抗性样本对LLMs (Llama-2, Mistral)进行了微调。在对抗性训练实例上进行微调，使对抗性MWPs的性能提高了约8%，表明对噪声的鲁棒性增强，并且提高了识别相关数据进行推理的能力。最后，为了评估我们的prompting框架的泛化能力，我们引入了GSM-8K-Adv，这是GSM-8K基准的对抗变体。LLMs在面对对抗性信息时仍然表现不佳，性能降低高达6%。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在处理包含无关信息的数学应用题（MWPs）时性能下降的问题。现有方法在处理真实场景下的MWPs时，由于题目中可能包含大量无关信息（例如数值噪声），LLMs容易被干扰，无法准确识别和利用关键信息进行推理和计算，导致解题准确率降低。

核心思路：论文的核心思路是通过对抗训练来增强LLMs对噪声的鲁棒性。具体来说，通过设计一种prompting框架，自动生成包含无关变量的MWPs的对抗变体，从而构建一个包含大量噪声样本的数据集。然后，利用这些对抗样本对LLMs进行微调，使模型学会忽略无关信息，关注关键信息，从而提高在真实场景下的解题能力。

技术框架：整体框架包括以下几个主要步骤：1) 设计prompting框架，用于生成对抗性MWPs；2) 构建包含对抗性和非对抗性MWPs的数据集PROBLEMATHIC；3) 使用PROBLEMATHIC数据集对LLMs（Llama-2, Mistral）进行微调；4) 在对抗性和非对抗性MWPs上评估微调后的LLMs的性能；5) 构建GSM-8K的对抗变体GSM-8K-Adv，评估prompting框架的泛化能力。

关键创新：论文最重要的技术创新点在于提出了一种自动生成对抗性MWPs的prompting框架。该框架能够有效地在原始MWPs中添加无关变量，从而生成具有挑战性的对抗样本。此外，论文还构建了一个包含对抗性和非对抗性MWPs的大规模数据集PROBLEMATHIC，为研究LLMs在含噪声环境下的性能提供了一个有价值的资源。

关键设计：prompting框架的关键设计在于如何有效地添加无关变量，同时保证生成的对抗样本仍然是有效的数学应用题。微调过程中的关键参数包括学习率、batch size、训练epoch等。损失函数采用标准的交叉熵损失函数。网络结构采用预训练的Llama-2和Mistral模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLMs在对抗性MWPs上的性能平均下降约26%。通过在PROBLEMATHIC数据集上进行微调，LLMs在对抗性MWPs上的性能提升了约8%，表明模型对噪声的鲁棒性得到了显著增强。在GSM-8K-Adv数据集上的实验表明，LLMs在面对对抗性信息时性能降低高达6%，突显了该研究的价值和意义。

🎯 应用场景

该研究成果可应用于提升LLM在实际问题解决中的可靠性和准确性，尤其是在金融分析、医疗诊断等对数据质量要求高的领域。通过增强模型对噪声的鲁棒性，可以减少因数据干扰导致的错误决策，提高AI系统的实用价值。未来，该方法可以推广到其他自然语言处理任务中，例如文本摘要、机器翻译等。

📄 摘要（原文）

Large Language Models (LLMs) excel at various tasks, including solving math word problems (MWPs), but struggle with real-world problems containing irrelevant information. To address this, we propose a prompting framework that generates adversarial variants of MWPs by adding irrelevant variables. We introduce a dataset, PROBLEMATHIC, containing both adversarial and non-adversarial MWPs. Our experiments reveal that LLMs are susceptible to distraction by numerical noise, resulting in an average relative performance drop of ~26% on adversarial MWPs. To mitigate this, we fine-tune LLMs (Llama-2, Mistral) on the adversarial samples from our dataset. Fine-tuning on adversarial training instances improves performance on adversarial MWPs by ~8%, indicating increased robustness to noise and improved ability to identify relevant data for reasoning. Finally, to assess the generalizability of our prompting framework, we introduce GSM-8K-Adv, an adversarial variant of the GSM-8K benchmark. LLMs continue to struggle when faced with adversarial information, reducing performance by up to 6%.

Cutting Through the Noise: Boosting LLM Performance on Math Word Problems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理