cs.LG（2025-01-30）

📊 共 21 篇论文 | 🔗 5 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (10 🔗2) 支柱二：RL算法与架构 (RL & Architecture) (8 🔗3) 支柱八：物理动画 (Physics-based Animation) (2) 支柱一：机器人控制 (Robot Control) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (10 篇)

#	题目	一句话要点	标签	🔗	⭐
1	FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models	FinanceQA：评估大语言模型在金融分析任务中能力的基准测试	large language model	✅
2	Continually Evolved Multimodal Foundation Models for Cancer Prognosis	提出持续演进的多模态基础模型，提升癌症预后预测的泛化性和准确性。	foundation model multimodal
3	Evaluating Large Language Models in Vulnerability Detection Under Variable Context Windows	评估不同上下文窗口下大型语言模型在漏洞检测中的表现	large language model
4	Large Language Models for Cryptocurrency Transaction Analysis: A Bitcoin Case Study	提出LLM4TG框架，利用大语言模型分析比特币交易图，提升网络犯罪检测能力。	large language model
5	Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency	优化LLaMA 2推理效率：编程语言与框架的对比研究	large language model
6	Invisible Traces: Using Hybrid Fingerprinting to identify underlying LLMs in GenAI Apps	提出混合指纹识别框架，用于在GenAI应用中识别底层LLM，提升安全与透明性。	large language model
7	Token-Hungry, Yet Precise: DeepSeek R1 Highlights the Need for Multi-Step Reasoning Over Speed in MATH	DeepSeek R1在MATH数据集上展现卓越多步推理能力，但需权衡效率	large language model
8	CLoQ: Enhancing Fine-Tuning of Quantized LLMs via Calibrated LoRA Initialization	CLoQ：通过校准LoRA初始化增强量化LLM的微调效果	large language model
9	Scaling Inference-Efficient Language Models	提出推理效率感知的缩放法则，优化模型架构以提升大语言模型推理速度。	large language model
10	AlphaAdam:Asynchronous Masked Optimization with Dynamic Alpha for Selective Updates	AlphaAdam：面向LLM的异步掩码优化与动态Alpha选择性更新	large language model	✅

🔬 支柱二：RL算法与架构 (RL & Architecture) (8 篇)

#	题目	一句话要点	标签	🔗	⭐
11	Large Language Models are Few-shot Multivariate Time Series Classifiers	提出LLMFew框架，利用大语言模型解决多元时间序列小样本分类问题	representation learning large language model
12	B3C: A Minimalist Approach to Offline Multi-Agent Reinforcement Learning	B3C：一种极简的离线多智能体强化学习方法，通过Critic裁剪提升性能。	reinforcement learning offline reinforcement learning behavior cloning
13	Hybrid Group Relative Policy Optimization: A Multi-Sample Approach to Enhancing Policy Optimization	Hybrid GRPO：融合经验采样与值函数，提升策略优化稳定性与效率	reinforcement learning PPO large language model
14	Contrastive Learning Meets Pseudo-label-assisted Mixup Augmentation: A Comprehensive Graph Representation Framework from Local to Global	提出ComGRL框架，融合局部与全局信息，提升图表示学习性能	representation learning contrastive learning	✅
15	ReactEmbed: A Cross-Domain Framework for Protein-Molecule Representation Learning via Biochemical Reaction Networks	ReactEmbed：通过生化反应网络进行蛋白质-分子跨域表征学习	representation learning contrastive learning	✅
16	Leveraging Sparsity for Sample-Efficient Preference Learning: A Theoretical Perspective	利用稀疏性提升偏好学习的样本效率	preference learning
17	Deceptive Sequential Decision-Making via Regularized Policy Optimization	提出基于正则化策略优化的欺骗性序列决策框架，应对逆强化学习攻击。	reinforcement learning inverse reinforcement learning
18	WILDCHAT-50M: A Deep Dive Into the Role of Synthetic Data in Post-Training	WILDCHAT-50M：通过大规模合成数据提升语言模型后训练效果	DPO distillation	✅

🔬 支柱八：物理动画 (Physics-based Animation) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
19	STaleX: A Spatiotemporal-Aware Adaptive Auto-scaling Framework for Microservices	提出STaleX框架以解决微服务自适应自动扩展问题	spatiotemporal
20	Neural Network Modeling of Microstructure Complexity Using Digital Libraries	利用数字图书馆和神经网络建模微观结构复杂性，提升预测精度。	spatiotemporal

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
21	Exploring Potential Prompt Injection Attacks in Federated Military LLMs and Their Mitigation	针对联邦军事LLM的Prompt注入攻击，提出人机协作防御框架	manipulation large language model

⬅️ 返回 cs.LG 首页 · 🏠 返回主页