cs.LG（2025-03-04）

📊 共 12 篇论文 | 🔗 1 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (7 🔗1) 支柱一：机器人控制 (Robot Control) (3) 支柱二：RL算法与架构 (RL & Architecture) (2)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (7 篇)

#	题目	一句话要点	标签	🔗	⭐
1	Smoothing the Shift: Towards Stable Test-Time Adaptation under Complex Multimodal Noises	提出SuMi方法，解决复杂多模态噪声下的稳定测试时自适应问题	multimodal	✅
2	Malware Classification from Memory Dumps Using Machine Learning, Transformers, and Large Language Models	利用机器学习、Transformer和LLM对内存转储进行恶意软件分类	large language model
3	Network Traffic Classification Using Machine Learning, Transformer, and Large Language Models	利用机器学习、Transformer和LLM进行网络流量分类，Transformer和XGBoost表现最佳。	large language model
4	KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding	KodCode：一个多样、具挑战性且可验证的代码合成数据集，用于提升代码大语言模型性能。	large language model
5	Language Models can Self-Improve at State-Value Estimation for Better Search	提出自学习前瞻（STL）框架，提升语言模型在状态值估计上的能力，从而改进搜索。	chain-of-thought
6	Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models	SPHERE：一种自进化偏好优化方法，提升小语言模型数学推理能力	large language model
7	Tabby: A Language Model Architecture for Tabular and Structured Data Synthesis	Tabby：一种用于表格和结构化数据合成的语言模型架构	large language model

🔬 支柱一：机器人控制 (Robot Control) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
8	Teaching Metric Distance to Discrete Autoregressive Language Models	提出DIST2Loss，利用token间距离关系训练离散自回归语言模型，提升多模态任务性能。	manipulation large language model multimodal
9	LLM Misalignment via Adversarial RLHF Platforms	提出对抗性RLHF平台攻击，揭示LLM对齐过程中的潜在风险	manipulation reinforcement learning RLHF
10	A2Perf: Real-World Autonomous Agents Benchmark	A2Perf：面向真实世界自主Agent的综合性评测基准	quadruped locomotion reinforcement learning

🔬 支柱二：RL算法与架构 (RL & Architecture) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
11	Target Return Optimizer for Multi-Game Decision Transformer	提出MTRO算法，自动优化多游戏决策Transformer中的目标回报，提升泛化能力。	reinforcement learning offline reinforcement learning decision transformer
12	Four Principles for Physically Interpretable World Models	提出物理可解释世界模型的四大原则，提升自主系统在不确定环境下的可靠性。	world model

⬅️ 返回 cs.LG 首页 · 🏠 返回主页