Bridging the Reasoning Gap in Vietnamese with Small Language Models via Test-Time Scaling

📄 arXiv: 2604.17794v1 📥 PDF

作者: Bui The Trung, Do Minh Duc, Nguyen Van Vinh, Bui Nguyen Quoc Trinh

分类: cs.CL, cs.AI

发布日期: 2026-04-20

备注: FJICAI conference


💡 一句话要点

通过测试时缩放,利用小型语言模型弥合越南语推理差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 越南语推理 监督微调 思维链 测试时缩放

📋 核心要点

  1. 小型语言模型在越南语等非英语推理任务中存在“推理差距”,难以保持思维连贯。
  2. 通过监督微调(SFT)解锁模型潜在知识,并结合简化的测试时缩放策略提升推理能力。
  3. 实验表明,SFT结合CoT优于ReAct等复杂框架,在边缘设备推理中更有效。

📝 摘要(中文)

人工智能的普及依赖于在资源受限设备上部署复杂的推理能力。然而,小型语言模型(SLMs)常常面临“推理差距”,尤其是在越南语等非英语语言中,它们难以维持连贯的思维链。本文研究了Qwen3-1.7B架构在越南语小学数学背景下的测试时缩放策略。我们引入了Vi-S1K,一个通过Gemini 2.5 Flash-Lite驱动的流程本地化的高保真推理数据集,以及Vi-Elementary-Bench,一个用于严格评估的双资源基准。使用LLM-as-a-Judge协议,我们发现基础模型具有强大的潜在知识(准确率:4.05/5.00),但存在严重的“格式差距”。监督微调(SFT)充当关键的“推理解锁器”,使解释质量提高了77%,弥合了原始计算和教学连贯性之间的差距。此外,我们对提示策略的分析揭示了一个重要的权衡:像ReAct这样的结构化框架对1.7B参数容量施加了“认知税”,相对于纯粹的思维链(CoT)结合自洽性,降低了性能。这些发现为SLM建立了部署层次结构,表明SFT结合简化的测试时缩放优于基于边缘推理的复杂代理工作流。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(SLMs)在越南语小学数学问题上的推理能力不足的问题,即“推理差距”。现有方法,如直接应用大型语言模型或复杂的agentic工作流,要么成本高昂,要么对小型模型造成过重的认知负担,无法有效解决越南语推理问题。

核心思路:论文的核心思路是通过监督微调(SFT)来激活小型语言模型中蕴含的潜在知识,并结合简化的测试时缩放策略,以弥合模型在原始计算能力和教学连贯性之间的“格式差距”。避免使用复杂的agentic框架,而是采用更轻量级的思维链(CoT)提示,以减少模型的认知负担。

技术框架:整体框架包括数据收集与构建(Vi-S1K数据集和Vi-Elementary-Bench基准),模型微调(使用Qwen3-1.7B模型进行SFT),以及评估(使用LLM-as-a-Judge协议)。主要模块包括:1) 数据本地化pipeline,使用Gemini 2.5 Flash-Lite将英文数据集翻译为高质量的越南语数据集;2) 基于Qwen3-1.7B的SFT模型;3) 用于评估模型推理能力和解释质量的LLM-as-a-Judge评估流程。

关键创新:论文的关键创新在于:1) 提出了Vi-S1K数据集和Vi-Elementary-Bench基准,填补了越南语推理数据集的空白;2) 证明了SFT是解锁小型语言模型推理能力的关键,能够显著提高解释质量;3) 揭示了在小型语言模型中,简化的CoT提示优于复杂的ReAct框架,因为后者会增加模型的认知负担。

关键设计:论文的关键设计包括:1) 使用Gemini 2.5 Flash-Lite进行数据本地化,保证了数据集的质量;2) 使用Qwen3-1.7B作为基础模型,并进行SFT,优化模型在越南语推理任务上的性能;3) 采用LLM-as-a-Judge协议进行评估,能够更准确地衡量模型的推理能力和解释质量。没有明确提及损失函数和网络结构的具体细节,但强调了SFT的重要性。

📊 实验亮点

实验结果表明,通过监督微调(SFT),模型的解释质量提高了77%,显著弥合了原始计算和教学连贯性之间的差距。同时,研究发现,对于1.7B参数的小型模型,纯粹的思维链(CoT)结合自洽性优于ReAct等复杂框架,表明简化测试时缩放策略更适合边缘推理。

🎯 应用场景

该研究成果可应用于教育领域,例如开发智能辅导系统,帮助学生解决数学问题。此外,该方法还可以推广到其他资源受限的场景,例如在移动设备上部署智能助手,提供本地化的推理服务。未来,可以进一步探索如何利用更小的模型和更高效的微调方法,实现更广泛的人工智能普及。

📄 摘要(原文)

The democratization of ubiquitous AI hinges on deploying sophisticated reasoning capabilities on resource-constrained devices. However, Small Language Models (SLMs) often face a "reasoning gap", particularly in non-English languages like Vietnamese, where they struggle to maintain coherent chains of thought. This paper investigates Test-Time Scaling strategies for the Qwen3-1.7B architecture within the context of Vietnamese Elementary Mathematics. We introduce Vi-S1K, a high-fidelity reasoning dataset localized via a Gemini 2.5 Flash-Lite powered pipeline, and Vi-Elementary-Bench, a dual-resource benchmark for rigorous evaluation. Using an LLM-as-a-Judge protocol, we reveal that the base model possesses robust latent knowledge (Accuracy: 4.05/5.00) but suffers from a severe "formatting gap" in communication. Supervised Fine-Tuning (SFT) acts as a critical "reasoning unlocker", yielding a 77% improvement in Explanation Quality and bridging the gap between raw calculation and pedagogical coherence. Furthermore, our analysis of prompting strategies uncovers a significant trade-off: structured frameworks like ReAct impose a "cognitive tax" on the 1.7B parameter capacity, degrading performance relative to pure Chain-of-Thought (CoT) combined with Self-Consistency. These findings establish a deployment hierarchy for SLMs, demonstrating that SFT combined with simplified test-time scaling is superior to complex agentic workflows for edge-based reasoning.