cs.LG（2025-02-22）

📊 共 1 篇论文

🎯 兴趣领域导航

#	题目	一句话要点	标签	🔗	⭐
1	C2-DPO: Constrained Controlled Direct Preference Optimization	提出C2-DPO，通过约束概率位移改进DPO对齐语言模型	RLHF DPO direct preference optimization