Generative AI Act II: Test Time Scaling Drives Cognition Engineering

作者: Shijie Xia, Yiwei Qin, Xuefeng Li, Yan Ma, Run-Ze Fan, Steffi Chern, Haoyang Zou, Fan Zhou, Xiangkun Hu, Jiahe Jin, Yanheng He, Yixin Ye, Yixiu Liu, Pengfei Liu

分类: cs.CL, cs.AI

发布日期: 2025-04-18 (更新: 2025-04-28)

备注: v3: add the comparison to existing work part; fix some errors

🔗 代码/项目: GITHUB

💡 一句话要点

探索认知工程：测试时扩展驱动通用人工智能从知识检索到思维构建的转变

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 认知工程 测试时扩展 大型语言模型 思维构建 提示工程

📋 核心要点

现有大语言模型在知识检索、推理能力和认知过程上存在局限性，提示工程是主要交互方式。
论文提出通过测试时扩展技术，将模型从知识检索系统转变为思维构建引擎，实现心智层面的连接。
论文提供认知工程的教程和优化实现，旨在普及该技术，并提供测试时扩展的论文集合。

📝 摘要（中文）

第一代大型语言模型（2020-2023）通过大规模参数和数据扩展取得了显著成功，但也存在知识延迟、浅层推理和受限的认知过程等根本性局限。在此期间，提示工程成为我们与人工智能交互的主要界面，通过自然语言实现对话级别的通信。我们现在见证了“第二幕”（2024年至今）的出现，模型正通过测试时扩展技术从（潜在空间中的）知识检索系统转变为思维构建引擎。这种新范式通过基于语言的思维与人工智能建立了一种心智层面的连接。本文阐明了认知工程的概念基础，并解释了为什么现在是其发展的关键时刻。我们通过全面的教程和优化的实现，系统地分解了这些先进方法，普及了认知工程，使每个从业者都能参与到人工智能的第二幕中。我们提供了一个定期更新的关于测试时扩展的论文集合，可在GitHub仓库中找到。

🔬 方法详解

问题定义：现有的大型语言模型（LLMs）虽然在规模上取得了显著进展，但仍然面临知识更新滞后、推理能力不足以及认知过程受限等问题。传统的提示工程虽然可以进行对话级别的交互，但无法实现更深层次的思维引导和认知过程的控制。因此，如何提升LLMs的认知能力，使其能够进行更复杂的思考和问题解决，是当前面临的关键挑战。

核心思路：论文的核心思路是通过测试时扩展（Test-Time Scaling）技术，将LLMs从单纯的知识检索系统转变为能够进行思维构建的引擎。这种方法旨在通过在推理阶段动态调整模型的行为，使其能够模拟人类的思考过程，从而提升其认知能力。通过这种方式，可以实现与AI在心智层面的连接，从而更好地控制和引导AI的行为。

技术框架：论文并没有明确提出一个具体的架构或流程图，而是侧重于介绍测试时扩展这一概念，并提供相关的教程和实现。其核心在于利用各种测试时干预手段，例如思维链（Chain-of-Thought）提示、自我反思（Self-Reflection）等，来引导模型进行更深入的思考。这些技术可以被视为不同的模块，可以根据具体的任务和需求进行组合和调整。

关键创新：论文的关键创新在于强调了“认知工程”这一概念，并将其与测试时扩展技术联系起来。与传统的提示工程不同，认知工程旨在通过更精细的控制和引导，使AI能够模拟人类的认知过程。这种方法的核心在于将AI视为一个可以被“设计”和“塑造”的认知主体，从而实现更高级别的人机协作。

关键设计：论文并没有提供具体的参数设置或网络结构等技术细节，而是侧重于介绍各种测试时扩展技术的原理和应用。这些技术通常涉及到对提示语的设计、对模型输出的后处理以及对模型行为的动态调整。具体的设计取决于具体的任务和模型，需要根据实际情况进行调整和优化。

🖼️ 关键图片

📊 实验亮点

论文强调了测试时扩展技术在提升大语言模型认知能力方面的潜力，并提供了一个定期更新的论文集合，方便研究人员了解该领域的最新进展。虽然没有提供具体的实验数据，但论文通过对认知工程概念的阐述和对测试时扩展技术的介绍，为未来的研究方向提供了重要的启示。

🎯 应用场景

该研究成果可应用于智能助手、教育辅导、科研探索等领域。通过提升AI的认知能力，可以使其更好地理解用户需求，提供更个性化、更有效的服务。例如，在教育领域，AI可以作为学生的个性化辅导员，帮助学生理解复杂的概念和解决难题。在科研领域，AI可以辅助研究人员进行数据分析和模型构建，加速科学发现。

📄 摘要（原文）

The first generation of Large Language Models - what might be called "Act I" of generative AI (2020-2023) - achieved remarkable success through massive parameter and data scaling, yet exhibited fundamental limitations such as knowledge latency, shallow reasoning, and constrained cognitive processes. During this era, prompt engineering emerged as our primary interface with AI, enabling dialogue-level communication through natural language. We now witness the emergence of "Act II" (2024-present), where models are transitioning from knowledge-retrieval systems (in latent space) to thought-construction engines through test-time scaling techniques. This new paradigm establishes a mind-level connection with AI through language-based thoughts. In this paper, we clarify the conceptual foundations of cognition engineering and explain why this moment is critical for its development. We systematically break down these advanced approaches through comprehensive tutorials and optimized implementations, democratizing access to cognition engineering and enabling every practitioner to participate in AI's second act. We provide a regularly updated collection of papers on test-time scaling in the GitHub Repository: https://github.com/GAIR-NLP/cognition-engineering

Generative AI Act II: Test Time Scaling Drives Cognition Engineering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理