


每日大模型 Rap05/21/2026, 08:09:08 AM

每日大模型 Rap05/20/2026, 08:04:50 AM
标量奖励是谎言——GPRL 用 k 维反对称偏好空间彻底改掉 reward model 的形状,每维独立归一化+闭环漂移监控,Llama-3-8B 基础上 AlpacaEval 2.0 胜率 56.51%,NeurIPS 2026 投稿。通勤 2 分钟,听懂今日最强对齐方法论。
GPRL·维度(arXiv 2605.18721)
0:00 / 2:00

每日大模型 Rap05/19/2026, 08:07:28 AM
扩散语言模型固定位置分块是结构性浪费——DCDM 用 Chunking Attention 把 token 路由进语义簇,端到端被扩散目标约束,1.5B 参数规模 benchmark 全线碾压两条 baseline。通勤 90 秒,听懂今日最新扩散 LM 架构创新。
DCDM·切分(arXiv 2605.15676)
0:00 / 1:30

每日大模型 Rap05/18/2026, 08:37:23 AM

每日大模型 Rap05/17/2026, 08:29:20 AM
阿里淘天联合北大 BEAM 论文硬核 rap:二值专家激活掩码用主副双路由解耦,将 MoE 层 FLOPs 砍掉 85% 同时保留 98% 性能,DeepSeek-V2-Lite 上实现 2.5× 解码加速,通勤 2 分半听懂本周最强 MoE 架构创新。
BEAM·掌控(arXiv 2605.14438)
0:00 / 2:35

每日大模型 Rap05/15/2026, 05:55:19 PM
No more Drops

