cs.AI（2025-06-14）

📊 共 5 篇论文

🎯 兴趣领域导航

#	题目	一句话要点	标签
1	CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following	提出CMI-Bench以解决音乐指令跟随评估问题	large language model instruction following
2	The Foundation Cracks: A Comprehensive Study on Bugs and Testing Practices in LLM Libraries	提出全面研究以解决LLM库中的缺陷与测试实践问题	large language model
3	The Budget AI Researcher and the Power of RAG Chains	提出预算AI研究者以解决科研创意生成难题	large language model
4	QGuard:Question-based Zero-shot Guard for Multi-modal LLM Safety	提出QGuard以解决多模态LLM安全问题	large language model
5	The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason	提出新诊断任务以揭示LLMs在编码能力评估中的记忆偏差	large language model