cs.LG（2025-12-17）

📊 共 3 篇论文 | 🔗 1 篇有代码

🎯 兴趣领域导航

#	题目	一句话要点	标签	🔗	⭐
1	Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models	提出DR-RL，通过强化学习自适应优化LLM中低秩多头自注意力机制。	reinforcement learning large language model	✅
2	DSO: Direct Steering Optimization for Bias Mitigation	提出直接操控优化（DSO）算法，用于缓解视觉-语言模型和大型语言模型中的偏见。	reinforcement learning large language model

#	题目	一句话要点	标签	🔗	⭐
3	DreamPRM-Code: Function-as-Step Process Reward Model with Label Correction for LLM Coding	DreamPRM-Code：利用函数作为步骤的过程奖励模型，通过标签校正提升LLM代码生成能力	large language model