cs.LG（2024-11-22）

📊 共 4 篇论文

🎯 兴趣领域导航

#	题目	一句话要点	标签
1	Continual SFT Matches Multimodal RLHF with Negative Supervision	提出负监督微调(nSFT)方法，以高效匹配多模态RLHF的性能	PPO RLHF DPO
2	Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium	提出MADAC算法，解决安全多智能体强化学习中状态约束和可行性问题，实现广义纳什均衡。	reinforcement learning
3	Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers	提出AVG方法，无需批量更新、目标网络和经验回放，实现资源受限机器人上的深度策略梯度学习。	reinforcement learning deep reinforcement learning

#	题目	一句话要点	标签	🔗	⭐
4	VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space	VQalAttent：基于Transformer学习的VQ-VAE潜在空间，实现可控且透明的语音生成	VQ-VAE