cs.LG(2024-05-08)
📊 共 2 篇论文 | 🔗 1 篇有代码
🎯 兴趣领域导航
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Fast Stochastic Policy Gradient: Negative Momentum for Reinforcement Learning | 提出基于负动量的快速随机策略梯度算法SPG-NM,加速强化学习收敛。 | reinforcement learning | ||
| 2 | Vidur: A Large-Scale Simulation Framework For LLM Inference | Vidur:用于LLM推理的大规模仿真框架,优化部署配置。 | predictive model large language model | ✅ |