cs.LG(2024-11-10)

📊 共 3 篇论文

🎯 兴趣领域导航

支柱二:RL算法与架构 (RL & Architecture) (2) 支柱九:具身大模型 (Embodied Foundation Models) (1)

🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)

#题目一句话要点标签🔗
1 Multi-hop Upstream Anticipatory Traffic Signal Control with Deep Reinforcement Learning 提出基于多跳上游压力的深度强化学习交通信号灯控制方法 reinforcement learning deep reinforcement learning
2 How Does DPO Reduce Toxicity? A Mechanistic Neuron-Level Analysis 通过神经元层面的分析,揭示DPO降低语言模型毒性的机制,并提出无训练调优的激活编辑方法。 DPO direct preference optimization

🔬 支柱九:具身大模型 (Embodied Foundation Models) (1 篇)

#题目一句话要点标签🔗
3 CriticAL: Critic Automation with Language Models CriticAL:利用语言模型自动化科学模型批判,提升模型质量 large language model

⬅️ 返回 cs.LG 首页 · 🏠 返回主页