cs.AI(2024-10-24)
📊 共 14 篇论文 | 🔗 2 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (10)
支柱二:RL算法与架构 (RL & Architecture) (3 🔗1)
支柱四:生成式动作 (Generative Motion) (1 🔗1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (10 篇)
🔬 支柱二:RL算法与架构 (RL & Architecture) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 11 | Improving Small-Scale Large Language Models Function Calling for Reasoning Tasks | 提出一种基于RLHF的小型语言模型函数调用优化框架,提升其在推理任务上的性能。 | reinforcement learning RLHF DPO | ||
| 12 | Aligning CodeLLMs with Direct Preference Optimization | 提出基于DPO的代码大模型对齐方法,提升代码生成任务性能 | PPO DPO direct preference optimization | ||
| 13 | SIKeD: Self-guided Iterative Knowledge Distillation for mathematical reasoning | 提出SIKeD,通过自引导迭代知识蒸馏提升小模型在数学推理任务上的性能。 | distillation large language model | ✅ |
🔬 支柱四:生成式动作 (Generative Motion) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 14 | Scaling up Masked Diffusion Models on Text | 提出可扩展的Masked Diffusion模型,在文本生成和理解任务上达到媲美自回归模型的效果。 | MDM classifier-free guidance | ✅ |