Bridging the Reasoning Gap in Vietnamese with Small Language Models via Test-Time Scaling

作者: Bui The Trung, Do Minh Duc, Nguyen Van Vinh, Bui Nguyen Quoc Trinh

分类: cs.CL, cs.AI

发布日期: 2026-04-20

备注: FJICAI conference

💡 一句话要点

通过测试时缩放，利用小型语言模型弥合越南语推理差距

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 越南语推理 监督微调 思维链 测试时缩放

📋 核心要点

小型语言模型在越南语等非英语推理任务中存在“推理差距”，难以保持思维连贯。
通过监督微调(SFT)解锁模型潜在知识，并结合简化的测试时缩放策略提升推理能力。
实验表明，SFT结合CoT优于ReAct等复杂框架，在边缘设备推理中更有效。

📝 摘要（中文）

人工智能的普及依赖于在资源受限设备上部署复杂的推理能力。然而，小型语言模型(SLMs)常常面临“推理差距”，尤其是在越南语等非英语语言中，它们难以维持连贯的思维链。本文研究了Qwen3-1.7B架构在越南语小学数学背景下的测试时缩放策略。我们引入了Vi-S1K，一个通过Gemini 2.5 Flash-Lite驱动的流程本地化的高保真推理数据集，以及Vi-Elementary-Bench，一个用于严格评估的双资源基准。使用LLM-as-a-Judge协议，我们发现基础模型具有强大的潜在知识（准确率：4.05/5.00），但存在严重的“格式差距”。监督微调(SFT)充当关键的“推理解锁器”，使解释质量提高了77%，弥合了原始计算和教学连贯性之间的差距。此外，我们对提示策略的分析揭示了一个重要的权衡：像ReAct这样的结构化框架对1.7B参数容量施加了“认知税”，相对于纯粹的思维链(CoT)结合自洽性，降低了性能。这些发现为SLM建立了部署层次结构，表明SFT结合简化的测试时缩放优于基于边缘推理的复杂代理工作流。

🔬 方法详解

问题定义：论文旨在解决小型语言模型（SLMs）在越南语小学数学问题上的推理能力不足的问题，即“推理差距”。现有方法，如直接应用大型语言模型或复杂的agentic工作流，要么成本高昂，要么对小型模型造成过重的认知负担，无法有效解决越南语推理问题。

核心思路：论文的核心思路是通过监督微调（SFT）来激活小型语言模型中蕴含的潜在知识，并结合简化的测试时缩放策略，以弥合模型在原始计算能力和教学连贯性之间的“格式差距”。避免使用复杂的agentic框架，而是采用更轻量级的思维链（CoT）提示，以减少模型的认知负担。

技术框架：整体框架包括数据收集与构建（Vi-S1K数据集和Vi-Elementary-Bench基准），模型微调（使用Qwen3-1.7B模型进行SFT），以及评估（使用LLM-as-a-Judge协议）。主要模块包括：1) 数据本地化pipeline，使用Gemini 2.5 Flash-Lite将英文数据集翻译为高质量的越南语数据集；2) 基于Qwen3-1.7B的SFT模型；3) 用于评估模型推理能力和解释质量的LLM-as-a-Judge评估流程。

关键创新：论文的关键创新在于：1) 提出了Vi-S1K数据集和Vi-Elementary-Bench基准，填补了越南语推理数据集的空白；2) 证明了SFT是解锁小型语言模型推理能力的关键，能够显著提高解释质量；3) 揭示了在小型语言模型中，简化的CoT提示优于复杂的ReAct框架，因为后者会增加模型的认知负担。

关键设计：论文的关键设计包括：1) 使用Gemini 2.5 Flash-Lite进行数据本地化，保证了数据集的质量；2) 使用Qwen3-1.7B作为基础模型，并进行SFT，优化模型在越南语推理任务上的性能；3) 采用LLM-as-a-Judge协议进行评估，能够更准确地衡量模型的推理能力和解释质量。没有明确提及损失函数和网络结构的具体细节，但强调了SFT的重要性。

📊 实验亮点

实验结果表明，通过监督微调(SFT)，模型的解释质量提高了77%，显著弥合了原始计算和教学连贯性之间的差距。同时，研究发现，对于1.7B参数的小型模型，纯粹的思维链(CoT)结合自洽性优于ReAct等复杂框架，表明简化测试时缩放策略更适合边缘推理。

🎯 应用场景

该研究成果可应用于教育领域，例如开发智能辅导系统，帮助学生解决数学问题。此外，该方法还可以推广到其他资源受限的场景，例如在移动设备上部署智能助手，提供本地化的推理服务。未来，可以进一步探索如何利用更小的模型和更高效的微调方法，实现更广泛的人工智能普及。

📄 摘要（原文）

The democratization of ubiquitous AI hinges on deploying sophisticated reasoning capabilities on resource-constrained devices. However, Small Language Models (SLMs) often face a "reasoning gap", particularly in non-English languages like Vietnamese, where they struggle to maintain coherent chains of thought. This paper investigates Test-Time Scaling strategies for the Qwen3-1.7B architecture within the context of Vietnamese Elementary Mathematics. We introduce Vi-S1K, a high-fidelity reasoning dataset localized via a Gemini 2.5 Flash-Lite powered pipeline, and Vi-Elementary-Bench, a dual-resource benchmark for rigorous evaluation. Using an LLM-as-a-Judge protocol, we reveal that the base model possesses robust latent knowledge (Accuracy: 4.05/5.00) but suffers from a severe "formatting gap" in communication. Supervised Fine-Tuning (SFT) acts as a critical "reasoning unlocker", yielding a 77% improvement in Explanation Quality and bridging the gap between raw calculation and pedagogical coherence. Furthermore, our analysis of prompting strategies uncovers a significant trade-off: structured frameworks like ReAct impose a "cognitive tax" on the 1.7B parameter capacity, degrading performance relative to pure Chain-of-Thought (CoT) combined with Self-Consistency. These findings establish a deployment hierarchy for SLMs, demonstrating that SFT combined with simplified test-time scaling is superior to complex agentic workflows for edge-based reasoning.

Bridging the Reasoning Gap in Vietnamese with Small Language Models via Test-Time Scaling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理