cs.LG（2024-06-11）

📊 共 1 篇论文

🎯 兴趣领域导航

#	题目	一句话要点	标签	🔗	⭐
1	OPTune: Efficient Online Preference Tuning	OPTune：一种高效的在线偏好调整方法，通过动态采样提升训练效率。	reinforcement learning RLHF DPO