CosmoCore Affective Dream-Replay Reinforcement Learning for Code Generation

作者: Santhosh Kumar Ravindran

分类: cs.SE, cs.AI, cs.HC

发布日期: 2025-10-20

备注: 12 pages

💡 一句话要点

CosmoCore：基于情感梦境回放强化学习的代码生成方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 代码生成 强化学习 情感计算 梦境回放 大型语言模型

📋 核心要点

现有代码生成模型易产生幻觉代码，缺乏有效的自我纠正机制。
CosmoCore通过情感信号（效价和惊奇度）标记代码轨迹，指导模型学习。
实验表明，CosmoCore能显著减少幻觉代码并加速自我纠正。

📝 摘要（中文）

本文提出了一种受神经科学启发的强化学习架构CosmoCore，它整合了情感信号以增强大型语言模型（LLM）的代码生成能力。受到人类和动物学习的启发，即错误带来的尴尬会迅速驱动纠正行为（例如，训练小狗避免重复犯错），CosmoCore使用一个轻量级多层感知器（MLP）标记代码生成轨迹的效价和惊奇度。高负效价（令人尴尬）的片段，例如有bug的代码输出，在梦境队列中被优先处理，用于离线策略更新期间的五倍回放，而低惊奇度的成功片段则被修剪，以防止过度自信和缓冲区膨胀。在HumanEval和BigCodeBench等代码生成基准以及使用自定义数据管道环境的模拟中进行评估，CosmoCore减少了48%的幻觉代码（例如，语法错误或逻辑错误），并将自我纠正速度提高了45%。在PySpark环境中使用Hugging Face模型进行的本地实验验证了这些收益，并提供了用于复制的代码片段。消融实验证实，效价标记可以提高探索的好奇心，而修剪可以减轻效率低下。该框架将来自人类反馈的强化学习（RLHF）扩展到更具情感意识的代码助手，并可应用于IDE和数据管道。代码和自定义迷你世界模拟已发布。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在代码生成过程中出现的幻觉问题，即生成包含语法错误或逻辑错误的代码。现有方法，如单纯的强化学习，可能效率低下，难以有效纠正这些错误，并且容易产生过拟合和缓冲区膨胀等问题。

核心思路：CosmoCore的核心思路是模拟人类和动物的学习方式，利用情感信号（效价和惊奇度）来指导模型的学习过程。通过对代码生成轨迹进行情感标记，模型可以更加关注那些导致错误（负效价）的片段，并优先回放这些片段，从而更快地纠正错误。同时，通过修剪低惊奇度的成功片段，可以防止模型过度自信和缓冲区膨胀。

技术框架：CosmoCore的整体架构包含以下几个主要模块：1) 代码生成器：使用大型语言模型生成代码。2) 情感标记器：使用一个轻量级多层感知器（MLP）对代码生成轨迹进行情感标记，包括效价和惊奇度。3) 梦境队列：存储代码生成轨迹，并根据情感标记进行优先级排序。4) 强化学习更新：使用离线策略更新算法，从梦境队列中采样轨迹，并更新代码生成器的参数。

关键创新：CosmoCore最重要的技术创新点在于引入了情感信号来指导强化学习过程。与传统的强化学习方法相比，CosmoCore能够更加有效地关注那些导致错误的片段，并优先回放这些片段，从而更快地纠正错误。此外，CosmoCore还通过修剪低惊奇度的成功片段，防止模型过度自信和缓冲区膨胀。

关键设计：情感标记器使用一个轻量级多层感知器（MLP）来实现，其输入是代码生成轨迹的特征，输出是效价和惊奇度。梦境队列使用优先级队列来实现，优先级由效价和惊奇度决定。强化学习更新使用离线策略更新算法，例如DQN或SAC。具体参数设置和损失函数等细节在论文中进行了详细描述。

📊 实验亮点

CosmoCore在HumanEval和BigCodeBench等代码生成基准上取得了显著的性能提升。实验结果表明，CosmoCore能够减少48%的幻觉代码，并将自我纠正速度提高45%。此外，消融实验还证实了效价标记可以提高探索的好奇心，而修剪可以减轻效率低下。

🎯 应用场景

CosmoCore具有广泛的应用前景，可以应用于各种代码生成场景，例如IDE中的代码自动补全、数据管道中的代码生成等。通过提高代码生成的准确性和效率，CosmoCore可以帮助开发者更快地完成任务，并减少错误。此外，CosmoCore还可以应用于其他领域，例如机器人控制、自然语言处理等。

📄 摘要（原文）

We introduce CosmoCore, a neuroscience-inspired reinforcement learning (RL) architecture that integrates affective signals to enhance code generation in large language models (LLMs). Motivated by human and animal learning where embarrassment from mistakes drives rapid correction, as observed in training a puppy to avoid repeating errors after a single scolding CosmoCore tags code generation trajectories with valence and surprise using a lightweight multi-layer perceptron (MLP). High-negative valence (cringe) episodes, such as buggy code outputs, are prioritized in a Dream Queue for five-fold replay during off-policy updates, while low-surprise successes are pruned to prevent overconfidence and buffer bloat. Evaluated on code generation benchmarks like HumanEval and BigCodeBench, alongside simulations with a custom data pipeline environment, CosmoCore reduces hallucinated code (e.g., syntax errors or logical bugs) by 48\% and accelerates self-correction by 45\%. Local experiments using Hugging Face models in a PySpark environment validate these gains, with code snippets provided for replication. Ablations confirm valence tagging boosts curiosity in exploration, and pruning mitigates inefficiency. This framework extends RL from human feedback (RLHF) for more emotionally aware code assistants, with applications in IDEs and data pipelines. Code and the custom mini-world simulation are released.

CosmoCore Affective Dream-Replay Reinforcement Learning for Code Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理