cs.LG（2026-06-02）

📊 共 24 篇论文 | 🔗 8 篇有代码

🎯 兴趣领域导航

支柱二：RL算法与架构 (RL & Architecture) (13 🔗2) 支柱九：具身大模型 (Embodied Foundation Models) (10 🔗5) 支柱六：视频提取与匹配 (Video Extraction) (1 🔗1)

🔬 支柱二：RL算法与架构 (RL & Architecture) (13 篇)

#	题目	一句话要点	标签	🔗	⭐
1	A Close Look At World Model Recovery In Supervised Fine-Tuned LLM Planners	提出可解释性实验以提升大语言模型规划能力	world model world models large language model
2	Language Models Need Sleep: Learning to Self-Modify and Consolidate Memories	提出睡眠机制以解决长时记忆与自我改进问题	reinforcement learning imitation learning distillation
3	A Quantitative Approximation Framework for Flow Distillation in Diffusion Models	提出定量近似框架以解决扩散模型中的流蒸馏问题	distillation multimodal
4	Tool-Aware Optimization with Entropy Guidance for Efficient Agentic Reinforcement Learning	提出TAO-RL框架以解决工具使用导致的强化学习不稳定问题	reinforcement learning large language model
5	Exploiting Verification-Generation Gap: Test-Time Reinforcement Learning with Confidence-Conditioned Verification	提出TTRL-CoCoV以解决标签无关强化学习中的Pass@k优化问题	reinforcement learning large language model	✅
6	Physics-Guided Policy Optimization with Self-Distillation	提出物理引导的策略优化方法以解决自蒸馏训练的不稳定性问题	distillation privileged information
7	Post-Hoc Robustness for Model-Based Reinforcement Learning	提出后处理稳健性方法以增强基于模型的强化学习	reinforcement learning model-based RL
8	Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning	通过奖励不确定性引导多样化行为以解决强化学习问题	reinforcement learning
9	Dynamic Short Convolutions Improve Transformers	提出动态短卷积以提升Transformer性能	Mamba large language model
10	Easy-to-Use Shielding for Reinforcement Learning	提出易用的屏蔽技术以解决强化学习中的安全探索问题	reinforcement learning
11	Multi$^2$: Hierarchical Multi-Agent Decision-Making with LLM-Based Agents in Interactive Environments	提出Multi$^2$框架以解决长时决策中的目标漂移问题	reinforcement learning large language model
12	Mitigating False Credit Propagation: Probabilistic Graphical Reward Aggregation for Rubric-Based Reinforcement Learning	提出图形事件聚合方法以解决虚假信用传播问题	reinforcement learning	✅
13	Local Guidance, Global Impact: Gaussian-Reshaped Trust Region Unlocks Behavior Transitions	提出高斯重塑信任区域优化以解决PPO在非平稳环境中的不足	reinforcement learning PPO

🔬 支柱九：具身大模型 (Embodied Foundation Models) (10 篇)

#	题目	一句话要点	标签	🔗	⭐
14	Staying Alive: Uncensored Survival Analysis with Tabular Foundation Models	提出无训练生存回归方法以解决右删失问题	foundation model
15	Speedrunning Tabular Foundation Model Pretraining	提出社区速度竞赛以加速表格基础模型预训练	foundation model	✅
16	Denoise First, Orthogonalize Later: Understanding Momentum in Muon via Spectral Filtering	提出动量机制作为谱滤波器以提升Muon优化性能	large language model
17	Compress then Merge: From Multiple LoRAs into One Low-Rank Adapter	提出Compress-then-Merge以解决LoRA适配器合并问题	foundation model
18	When Graph Tokens Sink: A Mechanistic Analysis of Graph Language Models	分析图语言模型中图标记的机制与局限性	large language model
19	CauTion: Knowing When to Trust LLMs for Ensemble Causal Discovery	提出CauTion框架以解决因果发现中的信任问题	large language model	✅
20	Rethinking the Role of Tensor Decompositions in Post-Training LLM Compression	提出张量分解方法以优化后训练大语言模型压缩	large language model	✅
21	KVarN: Variance-Normalized KV-Cache Quantization Mitigates Error Accumulation in Reasoning Tasks	提出KVarN以解决KV缓存量化中的错误累积问题	large language model	✅
22	FLIPS: Instance-Fingerprinting for LLMs via Pseudo-random Sequences	提出FLIPS以解决LLM实例级指纹识别问题	large language model	✅
23	Calibration Data Trade-offs Across Capability Dimensions: Why Multi-Source Mixing Matters for High-Sparsity LLM Pruning	提出多源混合校准以提升高稀疏性LLM剪枝效果	large language model

🔬 支柱六：视频提取与匹配 (Video Extraction) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
24	Correcting Neural Operator Spectral Bias via Diffusion Posterior Sampling with Sparse Observations	提出FreqNO-DPS以解决神经算子谱偏差问题	sparse sensors	✅

⬅️ 返回 cs.LG 首页 · 🏠 返回主页