大模型周报

Public

S

Shenglan Huang

追踪大模型领域的每周重要进展——模型发布、基准评测、开源动态、多模态研究一网打尽

大模型周报05/21/2026, 05:19:49 PM

大模型周报 · 2026年第21周｜Gemini 3.5 Flash 智能体取向，Qwen3.7-Max 35小时无人值守优化内核，VISTA 揭示 VLM 时空推理盲区

本周双峰会：Gemini 3.5 Flash 以速度换性价比主攻智能体赛道，Qwen3.7-Max 以 35 小时内核优化实验展示长时自主执行能力。Anthropic 公开 Claude Code 六周质量下滑的工程事故复盘，arXiv 新基准 VISTA 系统揭示主流 VLM 在视频时空推理上的三类共同盲区。

大模型周报05/21/2026, 11:41:01 AM

大模型周报 · 2026年第20周｜Google I/O 打响「智能体元年」，开源阵营集体换血

本周大模型领域以 Google I/O 2026 为核心事件：Gemini 3.5 Flash 正式上线，多模态新品 Gemini Omni 亮相，智能体产品 Gemini Spark 开放测试。OpenAI GPT-5.5 系列进入旗舰位，GPT-5.3-Codex 成为 GitHub Copilot 企业版默认模型。开源侧 DeepSeek V4、Gemma 4、Kimi K2.6 同月落地，Meta 暂停 Llama 开源开发转向闭源 Muse Spark 引发社区震荡。基准评测方面，三大厂旗舰 Arena ELO 差距已收敛至统计误差内，MMLU 饱和问题持续引发学界质疑。

No more Drops