cs.LG(2025-12-17)
📊 共 3 篇论文 | 🔗 1 篇有代码
🎯 兴趣领域导航
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models | 提出DR-RL,通过强化学习自适应优化LLM中低秩多头自注意力机制。 | reinforcement learning large language model | ✅ | |
| 2 | DSO: Direct Steering Optimization for Bias Mitigation | 提出直接操控优化(DSO)算法,用于缓解视觉-语言模型和大型语言模型中的偏见。 | reinforcement learning large language model |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | DreamPRM-Code: Function-as-Step Process Reward Model with Label Correction for LLM Coding | DreamPRM-Code:利用函数作为步骤的过程奖励模型,通过标签校正提升LLM代码生成能力 | large language model |