cs.LG(2025-07-02)
📊 共 7 篇论文 | 🔗 1 篇有代码
🎯 兴趣领域导航
支柱二:RL算法与架构 (RL & Architecture) (3)
支柱九:具身大模型 (Embodied Foundation Models) (2)
支柱一:机器人控制 (Robot Control) (1 🔗1)
支柱八:物理动画 (Physics-based Animation) (1)
🔬 支柱二:RL算法与架构 (RL & Architecture) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning | SPRO:通过自引导过程奖励优化和重定义的步进优势提升过程强化学习效率。 | reinforcement learning large language model | ||
| 2 | Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling | 提出Prefix-RFT,融合监督微调与强化微调,提升LLM在数学推理问题上的性能。 | behavior cloning large language model | ||
| 3 | Chargax: A JAX Accelerated EV Charging Simulator | Chargax:一种基于JAX加速的电动汽车充电站模拟器,用于强化学习训练。 | reinforcement learning deep reinforcement learning |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | Evaluating the Promise and Pitfalls of LLMs in Hiring Decisions | 评估LLM在招聘决策中的潜力和缺陷,强调领域专用模型的重要性 | large language model | ||
| 5 | LoRA Fine-Tuning Without GPUs: A CPU-Efficient Meta-Generation Framework for LLMs | 提出一种CPU高效的LLM元生成框架,无需GPU即可进行LoRA微调 | large language model |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 6 | TD-MPC-Opt: Distilling Model-Based Multi-Task Reinforcement Learning Agents | TD-MPC-Opt:通过蒸馏提升模型预测控制在多任务强化学习中的效率 | MPC reinforcement learning world model | ✅ |
🔬 支柱八:物理动画 (Physics-based Animation) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 7 | Generative Latent Diffusion for Efficient Spatiotemporal Data Reduction | 提出基于生成式隐空间扩散模型的高效时空数据压缩方法 | spatiotemporal |