cs.LG(2024-05-08)

📊 共 2 篇论文 | 🔗 1 篇有代码

🎯 兴趣领域导航

支柱二:RL算法与架构 (RL & Architecture) (2 🔗1)

🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)

#题目一句话要点标签🔗
1 Fast Stochastic Policy Gradient: Negative Momentum for Reinforcement Learning 提出基于负动量的快速随机策略梯度算法SPG-NM,加速强化学习收敛。 reinforcement learning
2 Vidur: A Large-Scale Simulation Framework For LLM Inference Vidur:用于LLM推理的大规模仿真框架,优化部署配置。 predictive model large language model

⬅️ 返回 cs.LG 首页 · 🏠 返回主页