cs.LG(2024-11-10)
📊 共 3 篇论文
🎯 兴趣领域导航
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Multi-hop Upstream Anticipatory Traffic Signal Control with Deep Reinforcement Learning | 提出基于多跳上游压力的深度强化学习交通信号灯控制方法 | reinforcement learning deep reinforcement learning | ||
| 2 | How Does DPO Reduce Toxicity? A Mechanistic Neuron-Level Analysis | 通过神经元层面的分析,揭示DPO降低语言模型毒性的机制,并提出无训练调优的激活编辑方法。 | DPO direct preference optimization |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | CriticAL: Critic Automation with Language Models | CriticAL:利用语言模型自动化科学模型批判,提升模型质量 | large language model |