Language as a Latent Variable for Reasoning Optimization

📄 arXiv: 2604.21593v1 📥 PDF

作者: Linjuan Wu, Haoran Wei, Jialong Tang, Shuang Luo, Baosong Yang, Yongliang Shen, Weiming Lu

分类: cs.CL

发布日期: 2026-04-23

备注: 17 pages, 7 figures, Under Reviewing


💡 一句话要点

提出polyGRPO,利用多语言作为隐变量优化LLM推理能力,提升跨任务泛化性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言学习 隐变量模型 强化学习 推理优化 跨任务泛化 语言模型 策略优化

📋 核心要点

  1. 现有LLM在推理任务中存在语言偏见,非英语回答有时优于英语,表明语言影响模型内部推理。
  2. 提出polyGRPO,将语言变异视为隐式探索信号,通过强化学习优化模型推理结构和答案准确性。
  3. 实验表明,polyGRPO在数学和常识推理任务上均超越基线模型,展现出强大的跨任务泛化能力。

📝 摘要(中文)

随着大型语言模型(LLM)减少以英语为中心的偏差,出现了一个令人惊讶的趋势:在推理任务上,非英语的回答有时优于英语。我们假设语言作为一种隐变量,在结构上调节模型的内部推理路径,而不仅仅是作为输出媒介。为了验证这一点,我们进行了一项多语言思考实验,要求模型在语言约束和非语言约束条件下解决相同的问题。结果表明,非英语回答通常能获得更高的准确率,并且在语言不受约束时,性能通常最佳,这表明多语言性拓宽了模型的潜在推理空间。基于此,我们提出了polyGRPO(Polyglot Group Relative Policy Optimization),这是一个RL框架,将语言变异视为一种隐式的探索信号。它在线生成语言约束和非语言约束下的多语言偏好数据,从而优化策略,使其兼顾答案准确性和推理结构。仅在1.81万个无思维链标注的多语言数学问题上进行训练,polyGRPO在四个英语推理测试集上将基础模型(Qwen2.5-7B-Instruct)的绝对准确率提高了6.72%,并在其多语言基准测试中提高了6.89%。值得注意的是,它是唯一一种在英语常识推理任务上超过基础LLM的方法(4.9%),尽管仅在数学数据上进行了训练,这突显了其强大的跨任务泛化能力。进一步的分析表明,将语言视为隐变量可以扩展模型的潜在推理空间,从而在推理性能方面产生一致且可泛化的改进。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在推理任务中存在的语言偏见问题。现有方法通常以英语为中心进行训练和评估,忽略了多语言信息可能带来的潜在优势。此外,现有方法缺乏对模型内部推理结构的有效优化,导致模型在不同语言和任务上的泛化能力受限。

核心思路:论文的核心思路是将语言视为一种隐变量,它能够影响模型的内部推理路径。通过探索不同语言下的推理过程,可以扩展模型的潜在推理空间,从而提高推理性能。具体而言,论文利用多语言数据作为一种隐式的探索信号,引导模型学习更鲁棒和泛化的推理策略。

技术框架:polyGRPO (Polyglot Group Relative Policy Optimization) 是一种强化学习框架,其整体流程如下:1) 使用语言约束和非语言约束条件生成多语言偏好数据。2) 利用这些数据训练一个策略模型,该模型的目标是最大化答案的准确性和推理结构的合理性。3) 使用训练好的策略模型进行推理,并根据推理结果更新模型参数。该框架包含以下主要模块:数据生成模块、策略优化模块和推理模块。

关键创新:论文最重要的技术创新点在于将语言视为一种隐变量,并利用多语言数据作为一种隐式的探索信号。这种方法不同于传统的以英语为中心的训练方法,它能够更好地利用多语言信息,从而提高模型的推理性能和泛化能力。此外,polyGRPO 框架通过强化学习的方式,能够有效地优化模型的推理结构,使其更加合理和高效。

关键设计:在数据生成阶段,论文采用了语言约束和非语言约束两种条件,以探索不同语言下的推理过程。在策略优化阶段,论文使用了相对策略优化(Relative Policy Optimization)算法,该算法能够有效地平衡答案准确性和推理结构之间的关系。损失函数的设计同时考虑了答案的正确性和推理过程的合理性。具体参数设置和网络结构细节未在论文中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

polyGRPO在仅使用1.81万个多语言数学问题进行训练的情况下,在四个英语推理测试集上将Qwen2.5-7B-Instruct的绝对准确率提高了6.72%,并在多语言基准测试中提高了6.89%。更重要的是,它是唯一一种在英语常识推理任务上超过基线LLM的方法(4.9%),突显了其强大的跨任务泛化能力。

🎯 应用场景

该研究成果可应用于提升大型语言模型在多语言环境下的推理能力,尤其是在需要跨语言理解和推理的场景中,如机器翻译、跨语言信息检索、多语言对话系统等。该方法能够提高模型在不同语言和任务上的泛化能力,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

As LLMs reduce English-centric bias, a surprising trend emerges: non-English responses sometimes outperform English on reasoning tasks. We hypothesize that language functions as a latent variable that structurally modulates the model's internal inference pathways, rather than merely serving as an output medium. To test this, we conducted a Polyglot Thinking Experiment, in which models were prompted to solve identical problems under language-constrained and language-unconstrained conditions. Results show that non-English responses often achieve higher accuracy, and the best performance frequently occur when language is unconstrained, suggesting that multilinguality broadens the model's latent reasoning space. Based on this insight, we propose polyGRPO (Polyglot Group Relative Policy Optimization), an RL framework that treats language variation as an implicit exploration signal. It generates polyglot preference data online under language-constrained and unconstrained conditions, optimizing the policy with respect to both answer accuracy and reasoning structure. Trained on only 18.1K multilingual math problems without chain-of-thought annotations, polyGRPO improves the base model (Qwen2.5-7B-Instruct) by 6.72% absolute accuracy on four English reasoning testset and 6.89% in their multilingual benchmark. Remarkably, it is the only method that surpasses the base LLM on English commonsense reasoning task (4.9%), despite being trained solely on math data-highlighting its strong cross-task generalization. Further analysis reveals that treating language as a latent variable expands the model's latent reasoning space, yielding consistent and generalizable improvements in reasoning performance.