cs.LG（2025-06-26）

📊 共 40 篇论文 | 🔗 3 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (18 🔗2) 支柱二：RL算法与架构 (RL & Architecture) (16 🔗1) 支柱八：物理动画 (Physics-based Animation) (4) 支柱五：交互与反应 (Interaction & Reaction) (2)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (18 篇)

#	题目	一句话要点	标签	🔗	⭐
1	SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning	提出SMMILE基准以解决多模态医学任务学习问题	large language model multimodal
2	BMFM-DNA: A SNP-aware DNA foundation model to capture variant effects	提出BMFM-DNA以解决DNA变异效应捕捉问题	large language model foundation model	✅
3	Multi-task parallelism for robust pre-training of graph foundation models on multi-source, multi-fidelity atomistic modeling data	提出多任务并行方法以增强图基础模型的鲁棒性	foundation model
4	CaloHadronic: a diffusion model for the generation of hadronic showers	提出CaloHadronic以解决高粒度探测器中粒子淋浴模拟问题	Aloha
5	Multimodal Misinformation Detection Using Early Fusion of Linguistic, Visual, and Social Features	提出多模态特征早期融合方法以检测虚假信息	multimodal
6	Distributed Cross-Channel Hierarchical Aggregation for Foundation Models	提出D-CHAG以解决图像通道聚合计算效率低下问题	foundation model
7	Scalable Bayesian Low-Rank Adaptation of Large Language Models via Stochastic Variational Subspace Inference	提出ScalaBL以解决大语言模型的不确定性量化问题	large language model
8	DynamicBench: Evaluating Real-Time Report Generation in Large Language Models	提出DynamicBench以解决实时信息处理评估问题	large language model
9	Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection	提出CHOOSE框架以解决无线符号检测中的计算资源限制问题	chain-of-thought
10	Large Language Model Agent for Modular Task Execution in Drug Discovery	提出模块化框架以优化药物发现中的关键任务	large language model
11	DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster	提出DiLoCoX以解决大规模分散集群训练中的低通信问题	large language model foundation model
12	mTSBench: Benchmarking Multivariate Time Series Anomaly Detection and Model Selection at Scale	提出mTSBench以解决多变量时间序列异常检测的基准问题	large language model
13	Early Stopping Tabular In-Context Learning	提出早停机制以提升表格上下文学习的推理效率	foundation model
14	Latent Prototype Routing: Achieving Near-Perfect Load Balancing in Mixture-of-Experts	提出潜在原型路由以解决混合专家模型负载不均问题	large language model
15	Zero-Shot Learning for Obsolescence Risk Forecasting	提出零样本学习方法以解决电子元件过时风险预测问题	large language model
16	Enhancing LLM Tool Use with High-quality Instruction Data from Knowledge Graph	利用知识图谱生成高质量指令数据以提升LLM工具使用能力	large language model
17	EraRAG: Efficient and Incremental Retrieval Augmented Generation for Growing Corpora	提出EraRAG以解决动态语料库更新效率问题	large language model	✅
18	Model State Arithmetic for Machine Unlearning	提出MSA算法以解决机器遗忘中的数据影响问题	large language model

🔬 支柱二：RL算法与架构 (RL & Architecture) (16 篇)

#	题目	一句话要点	标签	🔗	⭐
19	Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning	提出单步完成策略以提高离线强化学习效率	reinforcement learning policy learning offline RL
20	Quantum Reinforcement Learning Trading Agent for Sector Rotation in the Taiwan Stock Market	提出混合量子-经典强化学习框架以解决台湾股市的行业轮换问题	reinforcement learning PPO reward design
21	Explainable AI for Radar Resource Management: Modified LIME in Deep Reinforcement Learning	提出DL-LIME以提升雷达资源管理中的可解释性与性能	reinforcement learning deep reinforcement learning
22	DKGCM: A Spatio-Temporal Prediction Model for Traffic Flow by Fusing Spatial Node Clustering Method and Fourier Bidirectional Mamba Mechanism	提出DKGCM模型以解决交通流预测中的时空关系问题	reinforcement learning Mamba spatiotemporal
23	APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization	提出不对称策略优化以提升多模态大语言模型的推理能力	reinforcement learning large language model multimodal	✅
24	Complexity-aware fine-tuning	提出复杂性感知微调方法以提升大语言模型性能	distillation large language model chain-of-thought
25	TRIDENT: Tri-Modal Molecular Representation Learning with Taxonomic Annotations and Local Correspondence	提出TRIDENT框架以整合多模态信息提升分子属性预测	representation learning multimodal
26	Optimal Single-Policy Sample Complexity and Transient Coverage for Average-Reward Offline RL	提出单策略样本复杂度以解决平均奖励离线强化学习问题	reinforcement learning offline RL offline reinforcement learning
27	M3PO: Massively Multi-Task Model-Based Policy Optimization	提出M3PO以解决单任务样本效率低和多任务泛化差问题	reinforcement learning PPO world model
28	RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment	提出RL-Selector以解决数据冗余导致的训练效率低下问题	reinforcement learning
29	Risk-Averse Total-Reward Reinforcement Learning	提出风险规避的总回报强化学习算法以解决MDP问题	reinforcement learning
30	rQdia: Regularizing Q-Value Distributions With Image Augmentation	提出rQdia通过图像增强正则化Q值分布以提升深度强化学习性能	reinforcement learning deep reinforcement learning SAC
31	NaLaFormer: Norm-Aware Linear Attention for Transformer Models	提出Norm-Aware Linear Attention以解决线性注意力的熵缺失问题	linear attention
32	Efficient Skill Discovery via Regret-Aware Optimization	提出基于后悔感知优化的高效技能发现方法	reinforcement learning policy learning representation learning
33	Strict Subgoal Execution: Reliable Long-Horizon Planning in Hierarchical Reinforcement Learning	提出严格子目标执行框架以解决长时间规划问题	reinforcement learning
34	Interpretable Representation Learning for Additive Rule Ensembles	提出可解释的表示学习方法以改进加法规则集	representation learning

🔬 支柱八：物理动画 (Physics-based Animation) (4 篇)

#	题目	一句话要点	标签	🔗	⭐
35	Storm Surge in Color: RGB-Encoded Physics-Aware Deep Learning for Storm Surge Forecasting	提出RGB编码的深度学习方法以提高风暴潮预测精度	spatiotemporal
36	Modification of a Numerical Method Using FIR Filters in a Time-dependent SIR Model for COVID-19	提出FIR滤波器改进算法以优化COVID-19传播预测	PULSE
37	AGTCNet: A Graph-Temporal Approach for Principled Motor Imagery EEG Classification	提出AGTCNet以解决脑机接口EEG分类中的时空依赖问题	spatiotemporal
38	Forecasting Geopolitical Events with a Sparse Temporal Fusion Transformer and Gaussian Process Hybrid: A Case Study in Middle Eastern and U.S. Conflict Dynamics	提出STFT-VNNGP以解决地缘政治事件预测中的数据稀疏问题	spatiotemporal

🔬 支柱五：交互与反应 (Interaction & Reaction) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
39	Deception Detection in Dyadic Exchanges Using Multimodal Machine Learning: A Study on a Swedish Cohort	提出多模态机器学习以提高双人交互中的欺骗检测准确性	dyadic interaction multimodal
40	Why Neural Network Can Discover Symbolic Structures with Gradient-based Training: An Algebraic and Geometric Foundation for Neurosymbolic Reasoning	提出神经网络训练动态下符号结构的发现机制	OMOMO

⬅️ 返回 cs.LG 首页 · 🏠 返回主页