cs.LG(2024-11-22)
📊 共 4 篇论文
🎯 兴趣领域导航
🔬 支柱二:RL算法与架构 (RL & Architecture) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Continual SFT Matches Multimodal RLHF with Negative Supervision | 提出负监督微调(nSFT)方法,以高效匹配多模态RLHF的性能 | PPO RLHF DPO | ||
| 2 | Safe Multi-Agent Reinforcement Learning with Convergence to Generalized Nash Equilibrium | 提出MADAC算法,解决安全多智能体强化学习中状态约束和可行性问题,实现广义纳什均衡。 | reinforcement learning | ||
| 3 | Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers | 提出AVG方法,无需批量更新、目标网络和经验回放,实现资源受限机器人上的深度策略梯度学习。 | reinforcement learning deep reinforcement learning |
🔬 支柱四:生成式动作 (Generative Motion) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space | VQalAttent:基于Transformer学习的VQ-VAE潜在空间,实现可控且透明的语音生成 | VQ-VAE |