Structured Reasoning with Tree-of-Thoughts for Bengali Math Word Problems
作者: Aurprita Mahmood, Sabrin alam, Neloy kumer Sagor, Md. Abdul Hadi, Md. Sehab Al Islam, Minhajul Islam
分类: cs.CL
发布日期: 2025-12-05
💡 一句话要点
提出树状思维结构以解决孟加拉数学文字问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学文字问题 自然语言处理 树状思维 链式思维 大型语言模型 孟加拉语 推理方法
📋 核心要点
- 现有的链式思维方法在处理数学文字问题时存在错误传播的问题,限制了其有效性。
- 本文提出树状思维(ToT)作为一种新的推理框架,旨在通过结构化的思维过程提高推理的准确性。
- 实验结果显示,ToT在大型语言模型中表现优异,准确率提升至88%,相比于传统方法有显著改进。
📝 摘要(中文)
数学文字问题(MWPs)是自然语言处理中的一项挑战性任务,因其需要语言理解与多步骤数值推理。尽管链式思维(CoT)提示展现出一定的潜力,但其线性结构常常导致错误传播,限制了整体效果。为了解决这一问题,本文系统研究了树状思维(ToT)推理在孟加拉MWPs中的应用,使用SOMADHAN数据集。由于计算和令牌成本的限制,我们评估了一组100个代表性问题,比较了多种大型语言模型(LLMs),包括GPT-OSS和LLaMA变体,采用标准提示、CoT和ToT策略。结果表明,CoT将基线准确率从78%(标准提示)提高至83%,而ToT进一步提升了最多5个百分点,使用GPT-OSS-120B时达到了88%的准确率。这些结果表明,ToT在中大型模型中尤其有效,但对小型模型的优势较小。总体而言,研究确立了ToT作为解决低资源语言(如孟加拉语)数学问题的强大框架。
🔬 方法详解
问题定义:本文旨在解决孟加拉数学文字问题中的推理挑战,现有的链式思维方法由于线性结构导致错误传播,影响了推理效果。
核心思路:论文提出树状思维(ToT)作为一种新的推理方法,通过构建树状结构来组织思维过程,从而减少错误传播,提高推理的准确性和可靠性。
技术框架:整体架构包括数据集准备、模型选择、推理策略比较(标准提示、CoT和ToT),并在多个大型语言模型上进行评估。主要模块包括问题解析、推理过程和结果评估。
关键创新:ToT的最大创新在于其结构化的推理方式,相比于传统的线性推理,ToT能够更好地管理复杂的推理步骤,减少错误的累积。
关键设计:在实验中,选择了100个代表性问题,并在GPT-OSS和LLaMA等多个大型语言模型上进行测试,关注模型的计算成本和令牌使用效率。
🖼️ 关键图片
📊 实验亮点
实验结果显示,使用链式思维(CoT)将基线准确率从78%提升至83%,而树状思维(ToT)进一步提升至88%,相较于传统方法有显著的5个百分点的提升,尤其在大型模型中表现突出。
🎯 应用场景
该研究的潜在应用领域包括教育技术、智能辅导系统和多语言处理工具,能够帮助低资源语言的学习者更好地理解和解决数学问题。未来,ToT方法可能推动更多结构化推理技术在其他领域的应用,提升多语言自然语言处理的能力。
📄 摘要(原文)
Mathematical Word Problems (MWPs) are among the most challenging tasks in natural language processing because they require both linguistic understanding and multi-step numerical reasoning. While Chain-of-Thought (CoT) prompting has shown promise, its linear structure often propagates errors, limiting overall effectiveness. To address this limitation, we present the a systematic study of Tree-of-Thought (ToT) reasoning for Bengali MWPs using the SOMADHAN dataset. Owing to computational and token-cost constraints, we evaluate a curated set of 100 representative problems across multiple large language models (LLMs), including GPT-OSS and LLaMA variants, under standard prompting, CoT, and ToT strategies. Our results show that CoT improves baseline accuracy from 78% (standard prompting) to 83% on average, while ToT further increases performance by up to 5 percentage points, achieving 88% accuracy with GPT-OSS-120B. These improvements highlight that ToT is particularly effective in medium-to-large-scale models but may offer less advantage for smaller ones. Overall, our findings establish ToT as a robust framework for solving mathematical problems in low-resource languages such as Bengali. More broadly, this study shows that structured reasoning methods like ToT can provide more reliable and globally consistent outcomes than CoT, paving the way for better reasoning strategies in multilingual NLP.