cs.LG(2025-04-16)
📊 共 2 篇论文
🎯 兴趣领域导航
🔬 支柱二:RL算法与架构 (RL & Architecture) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | ToolRL: Reward is All Tool Learning Needs | ToolRL:奖励设计驱动LLM工具学习,提升泛化能力 | reinforcement learning reward design large language model |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 2 | Watermarking Needs Input Repetition Masking | LLM水印易被模仿:输入重复掩码是关键,需降低误报率并增加种子序列长度 | large language model |