General Intelligence Requires Reward-based Pretraining

作者: Seungwook Han, Jyothish Pari, Samuel J. Gershman, Pulkit Agrawal

分类: cs.LG

发布日期: 2025-02-26 (更新: 2025-08-26)

备注: https://improbableai.notion.site/General-Intelligence-Requires-Reward-Based-Pretraining-2023b66e4cf580d3ab44c7860b75d25f?pvs=73

💡 一句话要点

提出基于奖励的预训练方法，解耦知识与推理，提升LLM的通用智能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 通用人工智能 强化学习 预训练 知识推理 算法泛化

📋 核心要点

现有LLM在算法理解上泛化能力不足，核心问题在于推理与知识的耦合。
提出基于奖励的强化学习预训练，解耦知识与推理，并设计合成任务课程。
通过小上下文窗口学习更通用的推理函数，减少对token间虚假相关性的依赖。

📝 摘要（中文）

大型语言模型（LLMs）展现了令人印象深刻的实际应用价值，体现了人工有用智能（AUI）。然而，它们自适应和鲁棒的推理能力——人工通用智能（AGI）的标志——仍然很脆弱。虽然LLMs在常识推理、编程和数学方面看似成功，但它们难以在新的上下文中推广算法理解。我们在深奥编程语言中的算法任务实验表明，LLM的推理过度拟合训练数据，并且其可迁移性有限。我们假设这种有限可迁移性的核心问题是LLM中推理和知识的耦合。为了从AUI过渡到AGI，我们提出了通过三个关键方向解耦知识和推理：（1）使用强化学习（RL）从头开始进行推理预训练，作为广泛使用的下一个token预测预训练的替代方案；（2）使用合成任务课程来简化RL推理先验的学习，然后可以将其转移到自然语言任务；（3）使用小上下文窗口学习更通用的推理函数，以减少利用token之间的虚假相关性。这种推理系统与训练有素的检索系统和大型外部记忆库（作为知识存储）相结合，可以克服现有架构在学习新场景中的推理方面的若干限制。

🔬 方法详解

问题定义：现有大型语言模型（LLMs）在特定任务上表现出色，但其推理能力在新场景下的泛化能力较弱，尤其是在算法理解方面。LLM倾向于过度拟合训练数据中的模式，难以将已学知识迁移到新的、未知的上下文中。这主要是因为LLM将知识和推理能力紧密耦合在一起，导致推理过程依赖于记忆和模式匹配，而非真正的逻辑推理。

核心思路：论文的核心思路是通过解耦知识和推理来提升LLM的通用智能。具体而言，作者提出使用基于奖励的强化学习（RL）进行预训练，而不是传统的下一个token预测。这种方法旨在让模型从头开始学习推理能力，而不是仅仅记忆训练数据中的模式。此外，作者还提出使用合成任务课程来引导RL的学习过程，并使用小上下文窗口来减少模型对虚假相关性的依赖。

技术框架：该方法包含三个主要组成部分：1) 基于奖励的强化学习预训练：使用RL从头开始训练模型，使其学习推理能力。2) 合成任务课程：设计一系列合成任务，逐步增加难度，引导模型学习推理先验。3) 小上下文窗口：限制模型的上下文窗口大小，迫使其学习更通用的推理函数，减少对token之间虚假相关性的依赖。该推理系统可以与一个训练好的检索系统和一个大型外部记忆库结合，从而克服现有架构在学习新场景中的推理方面的限制。

关键创新：该论文的关键创新在于提出了一种基于奖励的预训练方法，用于解耦LLM中的知识和推理。与传统的下一个token预测预训练相比，该方法更注重培养模型的推理能力，使其能够更好地泛化到新的场景中。此外，合成任务课程和小上下文窗口的设计也有助于提高模型的推理能力和泛化能力。

关键设计：论文中关于奖励函数、合成任务课程以及上下文窗口大小的具体设计细节未知。未来的研究需要进一步探索这些关键参数的设置，以优化模型的性能。此外，如何有效地将该推理系统与检索系统和外部记忆库相结合，也是一个值得研究的问题。

🖼️ 关键图片

📊 实验亮点

论文通过在深奥编程语言中的算法任务实验表明，现有LLM的推理能力存在过度拟合和泛化能力不足的问题。虽然论文提出了改进方向，但具体的实验结果和性能提升数据未知，需要在后续研究中进一步验证。

🎯 应用场景

该研究成果可应用于需要强大推理能力的各种领域，如智能编程助手、自动化问题求解、复杂系统控制等。通过提升LLM的通用智能，可以使其更好地适应新的、未知的环境，从而实现更广泛的应用。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated impressive real-world utility, exemplifying artificial useful intelligence (AUI). However, their ability to reason adaptively and robustly -- the hallmarks of artificial general intelligence (AGI) -- remains fragile. While LLMs seemingly succeed in commonsense reasoning, programming, and mathematics, they struggle to generalize algorithmic understanding across novel contexts. Our experiments with algorithmic tasks in esoteric programming languages reveal that LLM's reasoning overfits to the training data and is limited in its transferability. We hypothesize that the core issue underlying such limited transferability is the coupling of reasoning and knowledge in LLMs. To transition from AUI to AGI, we propose disentangling knowledge and reasoning through three key directions: (1) pretaining to reason using RL from scratch as an alternative to the widely used next-token prediction pretraining, (2) using a curriculum of synthetic tasks to ease the learning of a reasoning prior for RL that can then be transferred to natural language tasks, and (3) learning more generalizable reasoning functions using a small context window to reduce exploiting spurious correlations between tokens. Such a reasoning system coupled with a trained retrieval system and a large external memory bank as a knowledge store can overcome several limitations of existing architectures at learning to reason in novel scenarios.

General Intelligence Requires Reward-based Pretraining

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理