cs.LG（2025-02-14）

📊 共 22 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱二：RL算法与架构 (RL & Architecture) (11 🔗2) 支柱九：具身大模型 (Embodied Foundation Models) (8) 支柱一：机器人控制 (Robot Control) (2) 支柱八：物理动画 (Physics-based Animation) (1)

🔬 支柱二：RL算法与架构 (RL & Architecture) (11 篇)

#	题目	一句话要点	标签	🔗	⭐
1	AdaPTS: Adapting Univariate Foundation Models to Probabilistic Multivariate Time Series Forecasting	AdaPTS：通过适配器将单变量预训练模型应用于概率多变量时间序列预测	representation learning foundation model	✅
2	AttenGluco: Multimodal Transformer-Based Blood Glucose Forecasting on AI-READI Dataset	AttenGluco：基于多模态Transformer的血糖预测框架，有效融合CGM和活动数据。	MAE multimodal
3	Ten Challenging Problems in Federated Foundation Models	综述联邦大模型中十大挑战性问题，为理论研究和实际应用提供指导	teacher-student foundation model
4	Preference learning made easy: Everything should be understood through win rate	基于胜率的偏好学习框架，简化生成模型对齐偏好数据的过程	preference learning RLHF DPO
5	From Markov to Laplace: How Mamba In-Context Learns Markov Chains	Mamba在上下文学习中高效学习马尔可夫链的拉普拉斯平滑估计器	Mamba SSM
6	Representation Learning on Out of Distribution in Tabular Data	提出TCL，一种轻量级表格数据OOD表示学习方法，提升分类性能。	representation learning contrastive learning
7	Direct Preference Optimization-Enhanced Multi-Guided Diffusion Model for Traffic Scenario Generation	提出DPO增强的多引导扩散模型，用于生成逼真可控的交通场景	DPO direct preference optimization
8	Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective	从理论视角重新审视过程监督：结果监督与过程监督统计难度相当	reinforcement learning large language model
9	Dynamic Reinforcement Learning for Actors	Dynamic RL：通过直接控制系统动力学实现强化学习的动态化	reinforcement learning
10	Filtration-Based Representation Learning for Temporal Graphs	提出基于δ-时间模体的时序图过滤表示学习方法，用于时序图分类。	representation learning
11	Process Reward Models for LLM Agents: Practical Framework and Directions	提出AgentPRM框架，通过过程奖励模型提升LLM Agent交互能力	RLHF reward shaping	✅

🔬 支柱九：具身大模型 (Embodied Foundation Models) (8 篇)

#	题目	一句话要点	标签	🔗	⭐
12	SPIRIT: Short-term Prediction of solar IRradIance for zero-shot Transfer learning using Foundation Models	SPIRIT：利用基础模型进行太阳辐照度短期预测，实现零样本迁移学习	foundation model zero-shot transfer
13	Accelerating Unbiased LLM Evaluation via Synthetic Feedback	提出一种结合人类与合成反馈的无偏LLM评估加速方法。	large language model
14	MixMin: Finding Data Mixtures via Convex Minimization	MixMin：通过凸优化寻找最优数据混合比例，提升模型性能。	large language model
15	Exploring the Boundary of Diffusion-based Methods for Solving Constrained Optimization	提出DiOpt：一种基于扩散模型的约束优化求解框架	multimodal
16	Accelerated Parallel Tempering via Neural Transports	利用神经传输加速并行退火算法，提升复杂分布采样效率	multimodal
17	Efficient Zero-Order Federated Finetuning of Language Models for Resource-Constrained Devices	提出高效零阶联邦微调方法，加速资源受限设备上LLM的微调收敛。	large language model
18	A novel approach to data generation in generative model	提出收敛融合范式（CFP）理论，解决生成模型中数据生成结构的捕获问题。	large language model
19	Identifiable Steering via Sparse Autoencoding of Multi-Concept Shifts	提出稀疏移位自编码器，实现多概念变化下的可辨识语言模型操控	large language model

🔬 支柱一：机器人控制 (Robot Control) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
20	Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning	提出MIKASA：用于评估强化学习智能体记忆能力的机器人操作基准	manipulation reinforcement learning
21	Shaping Inductive Bias in Diffusion Models through Frequency-Based Noise Control	通过频率控制噪声塑造扩散模型的归纳偏置	manipulation

🔬 支柱八：物理动画 (Physics-based Animation) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
22	Robust Anomaly Detection via Tensor Pseudoskeleton Decomposition	提出基于张量伪骨架分解的鲁棒异常检测方法，适用于高维张量数据。	spatiotemporal

⬅️ 返回 cs.LG 首页 · 🏠 返回主页