cs.LG（2026-02-19）

📊 共 27 篇论文 | 🔗 1 篇有代码

🎯 兴趣领域导航

支柱二：RL算法与架构 (RL & Architecture) (13) 支柱九：具身大模型 (Embodied Foundation Models) (11 🔗1) 支柱三：空间感知与语义 (Perception & Semantics) (1) 支柱一：机器人控制 (Robot Control) (1) 支柱八：物理动画 (Physics-based Animation) (1)

🔬 支柱二：RL算法与架构 (RL & Architecture) (13 篇)

#	题目	一句话要点	标签	🔗	⭐
1	Canonicalizing Multimodal Contrastive Representation Learning	提出正交映射以实现多模态对比表示学习的统一性	representation learning multimodal
2	Spatio-temporal dual-stage hypergraph MARL for human-centric multimodal corridor traffic signal control	提出STDSH-MARL以解决多模态交通信号控制问题	reinforcement learning deep reinforcement learning multimodal
3	SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer	SMAC：通过分数匹配的Actor-Critic方法实现鲁棒的离线到在线迁移	reinforcement learning TD3 offline RL
4	2Mamba2Furious: Linear in Complexity, Competitive in Accuracy	提出2Mamba，通过简化和改进Mamba-2，在长文本建模中实现精度与效率的平衡。	Mamba linear attention
5	LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy	提出LexiSafe框架以解决离线安全强化学习中的安全问题	reinforcement learning offline RL
6	Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning	提出最优无约束自蒸馏方法以提升岭回归性能	distillation
7	A Theoretical Framework for Modular Learning of Robust Generative Models	提出模块化生成模型训练框架，提升LLM在混合数据上的鲁棒性与效率	distillation large language model
8	MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning	MASPO：统一梯度利用、概率质量和信号可靠性的LLM鲁棒推理与高效采样	reinforcement learning large language model
9	RLGT: A reinforcement learning framework for extremal graph theory	提出RLGT框架，系统化图论极值问题，提升强化学习求解效率。	reinforcement learning
10	TIFO: Time-Invariant Frequency Operator for Stationarity-Aware Representation Learning in Time Series	提出时不变频率算子TIFO，解决非平稳时间序列预测中的分布偏移问题。	representation learning
11	Action-Graph Policies: Learning Action Co-dependencies in Multi-Agent Reinforcement Learning	提出行动图策略以解决多智能体强化学习中的协调问题	reinforcement learning
12	VP-VAE: Rethinking Vector Quantization via Adaptive Vector Perturbation	VP-VAE：通过自适应向量扰动改进向量量化变分自编码器	representation learning VQ-VAE
13	MARS: Margin-Aware Reward-Modeling with Self-Refinement	提出MARS以解决奖励模型训练中的不确定性问题	PPO RLHF

🔬 支柱九：具身大模型 (Embodied Foundation Models) (11 篇)

#	题目	一句话要点	标签	🔗	⭐
14	Reverso: Efficient Time Series Foundation Models for Zero-shot Forecasting	提出Reverso，一种高效时间序列基础模型，用于零样本预测。	foundation model
15	Retrospective In-Context Learning for Temporal Credit Assignment with Large Language Models	提出基于大语言模型的回顾性上下文学习，解决强化学习中的时序信用分配问题	large language model
16	Structured Prototype-Guided Adaptation for EEG Foundation Models	提出SCOPE框架，通过结构化原型引导自适应脑电基础模型，提升少样本跨被试泛化能力。	foundation model
17	TimeOmni-VL: Unified Models for Time Series Understanding and Generation	提出TimeOmni-VL以解决时间序列理解与生成的分裂问题	multimodal chain-of-thought
18	Pushing the Frontier of Black-Box LVLM Attacks via Fine-Grained Detail Targeting	M-Attack-V2：通过细粒度细节攻击提升黑盒LVLM对抗攻击性能	multimodal	✅
19	Towards Anytime-Valid Statistical Watermarking	提出基于E-value的统计水印框架，实现LLM生成内容的可信溯源与高效检测。	large language model
20	Privacy-Preserving Mechanisms Enable Cheap Verifiable Inference of LLMs	利用隐私保护机制实现低成本、可验证的大语言模型推理	large language model
21	Powering Up Zeroth-Order Training via Subspace Gradient Orthogonalization	ZO-Muon：基于子空间梯度正交化的零阶优化方法，提升大模型微调效率	large language model
22	FLoRG: Federated Fine-tuning with Low-rank Gram Matrices and Procrustes Alignment	FLoRG：基于低秩Gram矩阵和Procrustes对齐的联邦微调方法，解决分解漂移问题。	large language model
23	MeGU: Machine-Guided Unlearning with Target Feature Disentanglement	提出MeGU，通过目标特征解耦实现机器引导的有效率的机器学习遗忘	large language model
24	Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum	提出NAMO与NAMO-D优化器，将正交动量与自适应矩估计相结合，提升大语言模型训练效果。	large language model

🔬 支柱三：空间感知与语义 (Perception & Semantics) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
25	i-PhysGaussian: Implicit Physical Simulation for 3D Gaussian Splatting	提出i-PhysGaussian，将3D高斯溅射与隐式MPM积分器结合，实现更稳定的物理仿真。	3D gaussian splatting 3DGS gaussian splatting

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
26	Continual uncertainty learning	提出基于课程学习的持续不确定性学习框架，用于解决多重不确定性下的机械系统鲁棒控制问题。	sim-to-real domain randomization reinforcement learning

🔬 支柱八：物理动画 (Physics-based Animation) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
27	Learning a Latent Pulse Shape Interface for Photoinjector Laser Systems	提出基于Wasserstein自编码器的光阴极激光系统脉冲整形潜空间学习方法	PULSE

⬅️ 返回 cs.LG 首页 · 🏠 返回主页