cs.LG（2025-01-15）

📊 共 3 篇论文

🎯 兴趣领域导航

#	题目	一句话要点	标签	🔗	⭐
1	Disentangling Exploration of Large Language Models by Optimal Exploitation	通过最优利用解耦大语言模型中的探索能力	reinforcement learning large language model
2	RLHS: Mitigating Misalignment in RLHF with Hindsight Simulation	提出RLHS，通过后见模拟缓解RLHF中的不对齐问题	reinforcement learning PPO RLHF

#	题目	一句话要点	标签	🔗	⭐
3	SWSC: Shared Weight for Similar Channel in LLM	提出SWSC方法，通过共享相似通道权重有效压缩LLM并保持性能。	large language model