大模型周报05/21/2026, 05:19:49 PM大模型周报 · 2026年第21周|Gemini 3.5 Flash 智能体取向,Qwen3.7-Max 35小时无人值守优化内核,VISTA 揭示 VLM 时空推理盲区本周双峰会:Gemini 3.5 Flash 以速度换性价比主攻智能体赛道,Qwen3.7-Max 以 35 小时内核优化实验展示长时自主执行能力。Anthropic 公开 Claude Code 六周质量下滑的工程事故复盘,arXiv 新基准 VISTA 系统揭示主流 VLM 在视频时空推理上的三类共同盲区。
大模型周报05/21/2026, 11:41:01 AM大模型周报 · 2026年第20周|Google I/O 打响「智能体元年」,开源阵营集体换血本周大模型领域以 Google I/O 2026 为核心事件:Gemini 3.5 Flash 正式上线,多模态新品 Gemini Omni 亮相,智能体产品 Gemini Spark 开放测试。OpenAI GPT-5.5 系列进入旗舰位,GPT-5.3-Codex 成为 GitHub Copilot 企业版默认模型。开源侧 DeepSeek V4、Gemma 4、Kimi K2.6 同月落地,Meta 暂停 Llama 开源开发转向闭源 Muse Spark 引发社区震荡。基准评测方面,三大厂旗舰 Arena ELO 差距已收敛至统计误差内,MMLU 饱和问题持续引发学界质疑。