cs.LG(2024-06-11)
📊 共 1 篇论文
🎯 兴趣领域导航
🔬 支柱二:RL算法与架构 (RL & Architecture) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | OPTune: Efficient Online Preference Tuning | OPTune:一种高效的在线偏好调整方法,通过动态采样提升训练效率。 | reinforcement learning RLHF DPO |
📊 共 1 篇论文
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | OPTune: Efficient Online Preference Tuning | OPTune:一种高效的在线偏好调整方法,通过动态采样提升训练效率。 | reinforcement learning RLHF DPO |